Методы добычи данных при построении локальной метрики в системах вывода по прецедентам

2007 г.

Методы добычи данных при построении локальной метрики в системах вывода по прецедентам

Л. Е. Карпов, В. Н. Юдин
Препринт ИСП РАН¹

Содержание

1. Введение

2. Вывод на основе прецедентов в системах поддержки принятия решений

2.1. Концепция вывода
2.2. Декомпозиция метода (основные фазы)
2.3. Примеры систем вывода на основе прецедентов

3. Добыча данных в системах поддержки принятия решений и прогнозирования

3.1. Различные подходы к классификации области добычи данных
3.2. Классификация задач добычи данных
3.3. Классификация систем добычи данных

4. Интегрированный подход к построению систем поддержки принятия решений

4.1. Два подхода к интеграции вывода на основе прецедентов и добычи данных
4.2. Использование методов добычи данных в системах вывода по прецедентам
4.3. Использование прецедентов в системах добычи данных

5. Использование методов добычи данных для отбора прецедентов

5.1. Байесовские сети
5.2. Разбиение базы прецедентов на классы
5.3. Другие примеры систем, использующих интегрированный подход

6. Понятие контекстно-зависимой локальной метрики

7. Описание контекстно-зависимой локальной метрики

8. Заключение

Библиография

1. Введение

При современном уровне развития информационных технологий и, более конкретно, систем поддержки принятия решений различают два направления в развитии логического вывода знаний [Каменнова 95]:

развитие систем логического вывода, основанного на правилах;
развитие систем логического вывода, основанного на прецедентах.

Практически все ранние экспертные системы моделировали ход принятия решения экспертом как чисто дедуктивный процесс с использованием логического вывода, основанного на правилах. Это означало, что в систему закладывалась совокупность правил вида "если...то...", согласно которым на основании входных данных генерировалось то или иное заключение по интересующей проблеме. Выбранная модель являлась основой для создания экспертных систем первых поколений, которые были достаточно удобны как для разработчиков, так и для пользователей-экспертов. Однако с течением времени было осознано, что дедуктивная модель моделирует один из наиболее редких подходов, которому следует эксперт при решении проблемы.

Идея вывода по правилам является привлекательной, потому что она подразумевает наличие хорошо формализованной задачи, для которой существуют научные методы, доказавшие свою применимость и позволяющие получить решение, не требующее доказательств.

Но окружающий мир сложен. Существует много слабо формализованных задач, для которых, возможно, будут найдены решения. Кроме того, существует ряд задач, для которых никогда не будет найдено формальное решение (судопроизводство, медицина). Актуальность проблемы обусловлена и многочисленностью таких задач, и практической потребностью найти хотя бы одно сколько-нибудь подходящее решение там, где из-за отсутствия строго формализованного метода нельзя найти все или самое оптимальное из всех.

На самом деле, вместо того, чтобы решать каждую задачу, исходя из первичных принципов, эксперт часто анализирует ситуацию в целом и вспоминает, какие решения принимались ранее в подобных ситуациях. Затем он либо непосредственно использует эти решения, либо, при необходимости, адаптирует их к обстоятельствам, изменившимся для конкретной проблемы.

Моделирование такого подхода к решению проблем, основанного на опыте прошлых ситуаций, привело к появлению технологии логического вывода, основанного на прецедентах (по-английски – Case-Based Reasoning, или CBR), и в дальнейшем – к созданию программных продуктов, реализующих эту технологию.

В ряде ситуаций метод вывода по прецедентам имеет серьезные преимущества по сравнению с выводом, основанным на правилах, и особенно эффективен, когда:

основным источником знаний о задаче является опыт, а не теория,
решения не уникальны для конкретной ситуации и могут быть использованы в других случаях;
целью является не гарантированное верное решение, а лучшее из возможных.

Таким образом, вывод, основанный на прецедентах, представляет собой метод построения экспертных систем, которые делают заключения относительно данной проблемы или ситуации по результатам поиска аналогий, хранящихся в базе прецедентов.

Системы вывода по прецедентам показывают очень хорошие результаты в самых разнообразных задачах, но обладают рядом существенных недостатков.

Во-первых, они вообще не создают каких-либо моделей или правил, обобщающих предыдущий опыт, – в выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на основе каких конкретно факторов системы вывода по прецедентам строят свои конкретные ответы.

Можно выделить две основные проблемы, с которыми сталкиваются подобные системы: поиск наиболее подходящих прецедентов и последующая адаптация найденного решения.

В основе всех подходов к отбору прецедентов лежит тот или иной способ измерения степени близости прецедента и текущего случая. При таких измерениях вычисляется численное значение некоторой меры, определяющей состав множества прецедентов, которые нужно обработать для достижения удовлетворительной классификации или прогноза. Основным недостатком таких систем является произвол, который допускают системы при выборе меры близости. Кроме того, безосновательным выглядит распространение общей меры близости на выборку данных в целом.

Еще один недостаток метода связан с конструкцией прецедентов и назначения уместных весов их атрибутам, что уменьшает применимость таких систем в разных предметных областях.

В большинстве случаев методы поиска прецедентов сводятся к индукции деревьев решений или к алгоритму "ближайшего соседа", дополненному, может быть, использованием знаний о предметной области. Что касается адаптации и использования найденного решения, эта задача до сих пор остается недостаточно формализованной и сильно зависящей от предметной области.

Обе проблемы – поиск прецедентов и адаптация выбранного решения – решаются (полностью или частично) с привлечением фонового знания, иными словами, знания о предметной области (domain knowledge). Существуют разные способы получения информации о предметной области:

Привлечение экспертного знания. Оно может выражаться, например, в ограничениях, накладываемых на диапазоны изменений признаков объектов, или же в формулировании набора правил для разбиения базы прецедентов на классы (построение классификатора).

Получение необходимых знаний из набора имеющихся данных методами добычи данных (по-английски – Data Mining). Сюда относятся все методы выявления отношений в данных, в частности, кластеризация, регрессия, поиск ассоциаций. Использование методов добычи данных может выделить узкую группу показателей, от которых зависит интересующая исследователя характеристика, и представить обнаруженную закономерность в аналитической форме.

Формирование знаний на основе обучающей выборки, представленной экспертом (обучение с учителем). Этот способ включает в себя оба первых.

Изначально в системах вывода по прецедентам в качестве источников фонового знания выступали эксперты – высококвалифицированные специалисты предметных областей, а также текстовые материалы – от учебников до протоколов, и, разумеется, базы данных (имплицитные источники знаний). Роль эксперта (затратная по ресурсам и времени) заключалась в вербализации, то есть переводе таких источников в эксплицитную форму. Учитывая, что важнейшей задачей в процессе формализации извлечения знаний является минимизация роли эксперта, его роль должны взять на себя средства добычи данных.

Среди извлекаемых закономерностей на практике чаще всего встречаются отношения эквивалентности и порядка. Первые присущи, в частности, задачам классификации, диагностики и распознавания образов. С другой стороны, отношения порядка свойственны задачам шкалирования, прогнозирования и т.п.

Авторы поставили перед собой задачу предложить подход к построению интегрированных систем, при котором минимизируются указанные ранее недостатки. Этот подход основан на привлечении дополнительных знаний о предметной области с помощью методов добычи данных – классификации и кластеризации.

Предлагается ввести в базе прецедентов отношения эквивалентности, которые выражают принадлежность оцениваемых объектов к каким-либо классам, рассматриваемым как самостоятельные семантические единицы. Классы представляют номинальную шкалу (шкала наименований – не количественная, а строго качественная, она не приписывает классам никаких численно выражаемых атрибутов). Можно считать, что объекты, отнесенные к одному и тому же классу, эквивалентны с точки зрения данной номинальной шкалы. Такие классы (или основные понятия) в базе прецедентов могут быть построены различными способами: с помощью привлечения экспертного знания или путем предварительной кластеризации базы прецедентов. Эти классы, в свою очередь, предлагается использовать как основу для предлагаемой меры близости прецедентов.

К сожалению, реальные приложения редко укладываются в рамки фиксированного признакового пространства. Одной из причин этого является недостаток информации в описании объектов (прецедентов или текущего случая). Это приводит к тому, что текущий случай может попасть в смешение понятий, иными словами – в пересечение классов.

Авторы предлагают уйти от распространения общей меры близости на выборку данных в целом, введя понятие локальной контекстно-зависимой метрики для текущего случая. Эта метрика называется локальной, так как она привязывается к текущему случаю, а контекстно-зависимой – из-за того, что она определяется отношениями между объектами. В частности, от степени описания текущего случая зависят проекции классов на пространство его признаков и степень их пересечения. Само понятие пересечения используется при построении этой метрики.

¹ Работа поддержана грантами Российского фонда фундаментальных исследований № 06-07-89098 и № 06-01-00503

Оглавление Вперёд