Методы добычи данных при построении локальной метрики в системах вывода по прецедентам

Данные Разработка Безопасность Инфраструктура Курсы и книги

2007 г.

Методы добычи данных при построении локальной метрики в системах вывода по прецедентам

Л. Е. Карпов, В. Н. Юдин
Препринт ИСП РАН

8. Заключение

В работе предложен метод принятия решений, основанный на совместном применении ранее не комбинировавшихся (по крайней мере, в отечественных разработках) методов извлечения знаний и вывода по прецедентам, где методы добычи данных используются для автоматического отбора из большой базы прецедентов.

На данный момент все существующие интегрированные системы подобного рода пытаются строить для себя модель данных как способ получения фонового знания. Например, системы, использующие байесовские сети – причинно-следственную модель, системы, использующие предварительную кластеризацию – понятийную модель.

Основная цель привлечения фонового знания в системах вывода по прецедентам – получение сведений для разумного выбора наиболее подходящих прецедентов и адаптации найденного решения. А это, в свою очередь, в большой степени зависит от выбранной меры близости. Наиболее часто используемым методом в выборе прецедентов является метод "ближайшего соседа". В произволе, который допускают системы при выборе меры близости в этом методе, и заключается их главный недостаток.

Предложенная в работе локальная контекстно-зависимая метрика имеет интерпретацию расстояния и позволяет ранжировать объекты, по отношению к исследуемому, целыми числами. При ее построении может быть использована как предварительная кластеризация базы прецедентов, так и разбиение базы на классы эквивалентности с привлечением экспертного знания.

Неполное описания объектов и попадание текущего случая в пересечение понятий (что часто встречается на практике) также не являются препятствием. Более того, сам факт такого пересечения используется в предлагаемой метрике.

При построении метрики используется предложенный авторами модифицированный метод кластерного анализа, ориентированный на распознавание объектов в ситуациях, когда объекты и кластеры имеют не полностью совпадающие наборы признаков. Эта метрика применима к широкому кругу приложений и не накладывает ограничений на типы используемых атрибутов.

В нашей стране такой подход еще не получил должного развития. По сравнению с упомянутой ранее зарубежной разработкой (система M²), где используется предварительная кластеризация прецедентов, предлагаемый подход позволяет работать в условиях нефиксированного набора атрибутов, что часто встречается в различных приложениях в ситуациях, когда текущий случай попадает в смешение различных понятий из-за того, что он не полностью описан.

Что касается адаптации решения – предлагаемый метод позволяет сделать эту проблему более формализуемой. Хотя в общем случае проблема адаптации остается зависимой от предметной области, предложенный подход значительно упрощает эту задачу, так как учитывает фоновое знание.

Методы CBR уже применяются во множестве прикладных задач – в медицине, управлении проектами, для анализа и реорганизации среды, разработки товаров массового спроса с учетом предпочтений разных групп потребителей и т. д. Следует ожидать приложений методов CBR к задачам интеллектуального поиска информации, электронной коммерции (предложение товаров, создание виртуальных торговых агентств), планирования поведения в динамических средах, компоновки, конструирования, синтеза программ.

Назад Оглавление Вперёд

Новости IT

28 июля 2026

«Яндекс» начал тестировать в Москве роботакси на базе Kaiyi X7

28 июля 2026

Perplexity начала развёртывание ИИ-агента Personal Computer для Windows

28 июля 2026

Google продолжит спор с SerpApi после отклонения требований по DMCA

28 июля 2026

Microsoft представила агентную систему киберзащиты Project Perception

28 июля 2026

Суд Дели отказался запрещать OpenAI обучение ChatGPT на материалах ANI