2007 г.
Методы добычи данных при построении локальной метрики в системах вывода по прецедентам
Л. Е. Карпов, В. Н. Юдин
Препринт ИСП РАН
Назад Оглавление Вперёд
4. Интегрированный подход к построению систем поддержки принятия решений
4.1. Два подхода к интеграции вывода на основе прецедентов и добычи данных
Тому, что вывод по прецедентам – не только парадигма, но и равноправный партнер добычи данных, когда оба метода могут использовать результаты работы друг друга, до сих пор уделялось небольшое внимание, хотя и было признано важным [Fayyad 96].
Какова мотивация для интеграции двух методов? Оба используются для обработки информации в целях улучшения качества решений, однако, используя интегрированный подход, можно, по-видимому, получить большую отдачу от информации, чем, используя любой из методов в отдельности. Сочетание двух методов позволяет сформулировать и реализовать на практике принципиально новый подход к построению интеллектуальных систем. Можно привести слова математика Сеймура Паперта: "Некоторые из наиболее серьезных шагов в умственном развитии человечества основаны не просто на приобретении новых знаний, а на приобретении новых административных способов использовать то, что каждый уже знает".
Вывод по прецедентам сильно зависит от качества и количества собранных данных, от знаний о проблемной области и способов отбора наиболее релевантных прецедентов. Метод больше подходит для областей, о которых мы имеем недостаточно знаний.
В свою очередь, некоторые алгоритмы добычи данных сами требуют фонового знания, которое может быть получено с помощью прецедентов.
Вывод по прецедентам и добыча данных могут быть интегрированы несколькими способами. В зависимости от этого один из методов можно рассматривать как главный (master), а другой – в качестве вспомогательного (slave).
4.2. Использование методов добычи данных в системах вывода по прецедентам
Добыча данных позволяет находить дополнительные знания о проблемной области в виде паттернов, которые могут использоваться как фоновое знание в выводе по прецедентам:
- для вычисления степени близости между прецедентами (одним из таких способов является разбиение прецедентов на классы эквивалентности, когда близкими текущему случаю считаются прецеденты того же класса),
- для получения дополнительных знаний из базы прецедентов, что позволяет, например, выявлять значимость признаков и заполнять отсутствующие признаки,
- при адаптации решения,
- и даже при добавлении прецедентов (добыча данных может помочь найти дополнительные знания в базе данных и представить это как сконструированный прецедент).
4.3. Использование прецедентов в системах добычи данных
Учитывая, что процесс добычи данных может быть затратным, информация о достигнутых результатах и о процессе в целом может быть сохранена в виде прецедента, чтобы не тратить время на выработку одних и те же паттернов. Потребность в таком подходе впервые была озвучена в рамках обсуждения проекта CRISP-DM [Anand 97/1] при попытке выработать стандартную модель процесса добычи данных. В ходе него было заявлено: "Стандартная методология добычи данных должна обеспечить возможность фиксации и многократного использования опытов, а также управления проектами".
Прецеденты могут использоваться для нахождения некоторого фонового знания в базе данных, например, весов признаков для классификатора. В байесовской сети структура сети может быть изначально установлена с помощью "экспертного знания" (на основе прецедентов), а параметры уточнены с помощью алгоритмов добычи данных.
Прецеденты могут также использоваться, чтобы обеспечить утилитарность, критический анализ (обоснованность) и проверку новизны для алгоритмов добычи данных.
Назад Оглавление Вперёд