Визуальные средства поиска информации в
документоориентированных базах данных
В. Плешко, Гарант-Парк
Постоянно растущий поток документов, проходящих через информационное пространство
предприятий, все чаще заставляет менеджеров информационных систем искать новые решения по
автоматизации документооборота. Основная проблема, которая встает перед пользователем,
имеющим дело с большими массивами документов - это быстрое получение необходимой
информации. Современные системы автоматизации документооборота предлагают в основном
следующие четыре вида поиска:
- поиск по атрибутам,
- гипертекстовые ссылки,
- тематические рубрикаторы,
- контекстный поиск.
Рассмотрим приведенные способы поиска с точки зрения возможности их автоматической
подготовки.
Редко случается, когда документы приходят в нескольких заранее установленных и неизменных
форматах, и появляется возможность создать средства поиска документов по атрибутам. В общем
случае автоматически удается отслеживать лишь минимальный набор атрибутов, как-то: время
поступления документа, источник.
Системы автоматизированной сортировки документов пока еще редко встречаются и довольно
дороги. Автору не известно ни одной такой системы, работающей с русским языком. Самый
простой выход из такой ситуации - это нанять экспертов по конкретной тематике для
сортировки документов по рубрикам. Однако, как показывает опыт, с ростом потока
документов, качество работы экспертов по заполнению рубрикатора снижается.
Расстановка гипертекстовых ссылок опять-таки лежит целиком на плечах экспертов. Этот
процесс поддается автоматизации только в простейших случаях, например, обнаружении в
тексте адресов Internet или терминов из толкового словаря.
Контекстный поиск - это единственный полностью автоматизируемый вид поиска. Он хорошо
работает в качестве дополнения к предыдущим средствам. Но на больших объемах информации,
когда нет возможности поддерживать рубрикатор или выделить атрибуты документов, и
контекстный поиск является единственным инструментом, получение пользователем нужной
информации сопряжено со значительными трудностями. Тот, кто хотя бы раз пользовался
услугами поисковых серверов в Internet, например,
http://www.altavista.com, тот наверняка сталкивался с тем, что ответ на запрос может
состоять из нескольких тысяч документов.
Поэтому уже сейчас необходимы дополнительные средства, не требующие специальных форматов
представления документов, полностью автоматизированные и позволяющие сузить контекст
поиска.
Другая сторона разработки систем поиска информации - это улучшение пользовательского
интерфейса. В идеале интерфейс должен быть предельно простым, и пользователь должен иметь
возможность получать информацию посредством одного щелчка мыши.
Естественно, что любая новая технология, позволяющая хотя бы частично решить
вышеперечисленные проблемы, представляет большой интерес для любого, кому приходится
сталкиваться с большими объемами информации.
С начала своего существования фирма "Гарант-Парк" (
http://www.park.ru) активно занимается исследованиями по развитию методов поиска и
упорядочения информации для полнотекстовых баз данных. Эти исследования напрямую
связаны с деятельностью компании по разработке и поддержке WWW-версии СПС "Гарант",
которая хорошо известна широкому кругу пользователей, а также молодой, но быстро
развивающейся информационной системы "Парк", ориентированной на предоставление
информации экономического характера. Специалисты "Гарант-Парка" постоянно следят за
новинками в области новых информационных технологий и пополняют банк данных фирмы
информацией о перспективных направлениях. Так, в январе этого года из нескольких
кандидатов на внедрение была выбрана новая и перспективная технология, которая, по нашему
мнению, может претендовать на роль дополнительного средства поиска в
документоориентированных базах данных. Речь идет о методе WebSOM, предназначенном для
публикации документоориентированных баз данных в виде карты плотностей на
плоскости.
WebSOM является аббревиатурой слов Web Self-Organization Maps, что можно перевести, как
самоорганизующиеся карты (SOM) для Web. Данная технология была разработана группой
ученых, возглавляемой профессором Хельсинкского Технологического Университета Т.
Кохоненом. Первая публикация на эту тему в Internet была в январе 1996 года по адресу
http://websom.huf.fi/websom/. Там доступны статьи с
описанием метода и демонстрацией визуального представления массивов документов из групп
новостей Internet.
Специалистам "Гарант-Парка" пришлось адаптировать данную технологию к русскому языку,
и совсем недавно демонстрационная версия русского WebSOM появилась на сервере "Гарант-
Парка" по адресу
http://www.park.ru/websom/.
Рис.1. Пример применения
метода WebSOM для 1300 документов, случайно отобранных из ИС "Парк".
Документы связаны с узлами на карте. Чем ближе содержание документов, тем
ближе отвечающие им узлы. Доступ к документам осуществляется щелчком
мыши
Визуально (рис. 1) предметная область представлена, как карта с разнородной окраской, где
более темные области соответствуют большему числу документов. В зависимости от содержания
документов области карты поименованы. Пользователь с помощью мышки выбирает любую
точку на карте и получает соответствующие ей документы. Для получения документов,
содержание которых находится на пересечении нескольких категорий (именно так в
терминологии WebSOM называются разделы предметной области), достаточно кликнуть
мышкой в точку, расположенную между или на пересечении областей этих категорий. В общем и
целом, придумать что-либо проще, с точки зрения пользовательского интерфейса, трудно.
В методе WebSOM можно выделить два основных этапа - подготовка категорий смысловых
единиц (фактически - это разделы предметной области, которую предстоит описывать карте) и
построение карты документов (это та картинка, с которой в результате будет работать
пользователь). При подготовке категорий смысловых единиц исходят из того, что смысловая
единица - это объект, однозначно идентифицируемый в тексте, и отвечающий какому-либо
понятию. Например, слово, слово с дополнительной информацией, словосочетание. Категория
смысловых единиц - множество смысловых единиц, отвечающих одному и тому же понятию.
Грубо говоря, в категорию "криминал" попадают смысловые единицы "преступление",
"убийство", "ограбление"... Эти категории необходимы для построения смысловых портретов
документов. Смысловой портрет документа - это многомерный вектор, отражающий содержание
документа. Категории смысловых единиц можно готовить как заранее для заданной предметной
области, так и автоматически. Здесь, собственно говоря, и основное различие оригинального и
адаптированного методов WebSOM. В оригинальном WebSOM это делалось автоматически, с
использованием семантических самоорганизующихся карт (SSOM). В адаптированном, в силу
особенностей русского языка, от этого пришлось отказаться - категории смысловых единиц
создаются вручную, а затем могут использоваться для построения карт по конкретной
тематике.
При автоматическом построении каждый документ сначала подвергается лексическому анализу,
при котором удаляются служебные символы и части речи. Затем документ подается на вход
семантической самоорганизующейся карты для обучения. Семантическая самоорганизующаяся
карта представляет собой специально обученную SOM и служит для выделения слов, близких по
смыслу в категории. Основная идея здесь состоит в предположении, что слова, близкие по
смыслу, употребляются в сходном контексте, т.е. у близких по смыслу слов распределение слов,
употребляемых до и после должны быть близки. В результате получается карта категорий слов,
представляющая собой двухмерный массив, с каждым элементом которого связан список слов.
Предполагается, что слова, связанные с соседними элементами отвечают близким по смыслу
понятиям (рис. 2).
Рис. 2 Пример семантической
самоорганизующейся карты, построенной при экспериментах группы Кохонена
с группой новостей comp.ai.nueral-nets. В узлах карты очень мелким шрифтом
написаны, слова попавшие в узлы. В выносках приведено содержимое ряда
удачных узлов.
Все это оказалось хорошо для английского языка, но как часто бывает, сломалось на русском.
Менее строгая модель построения предложений, большее влияние стиля документа и тот факт,
что большинство понятий русского языка составляют словосочетания (согласно исследованиям
профессора Г.Г. Белоногова - более 60%), привели к тому, что оригинальная модель не пошла.
Попытки специалистов из "Гарант-Парка" заставить ее удовлетворительно работать с русским
языком успехом не увенчались. В результате в адаптированном WebSOM пришлось подойти к
вопросу организации категорий по другому. Смысловой единицей в нем считается
словосочетание, а выделением категорий смысловых единиц вручную занимаются эксперты.
Второй этап - построение карты документов в обоих вариантах метода реализован одинаково.
После лексического анализа подсчитывается, сколько раз в документе встретилась каждая из
категорий (т.е. сколько раз встретились смысловые единицы, входящие в категорию). В
результате получается гистограмма категорий, представляющая собой смысловой портрет
документа. Смысловые портреты документов подаются на вход карты категорий слов -
происходит обучение карты. После обучения карта раскрашивается пропорционально
плотности распределения смысловых портретов (чем больше документов в области, тем она
темнее) и, затем, размечается экспертом в зависимости от содержания областей.
Таким образом, при существующей карте категорий слов можно создавать карты, содержащие
сколь угодно много документов, причем система сама будет располагать документы на карте в
зависимости от содержания - задача администратора будет состоять только в переразметке
карты и введении, по-необходимости, новых категорий.
Фирма "Гарант-Парк" собирается активно продвигать эту технологию. Ко всему
вышесказанному можно добавить, что WebSOM от "Гарант-Парка" - это на данный момент
единственная коммерческая реализация данной технологии. И вообще, похоже, единственная
реализация данного метода, кроме реализации его авторов из Хельсинкского Технологического
Университета. Во всяком случае, поиск в Internet больше не дал ни одного адреса. Так что можно
с гордостью заявить, что в данном случае российская фирма оказалось первопроходцем, что в
последнее время случается крайне редко.
Перспективы же у WebSOM, при работающей реализации, достаточно радужные. Во-первых,
она будет добавлена в качестве визуального метода поиска в информационную систему "Парк"
( http://www.park.ru). Естественно там же она будет
использоваться для автоматической сортировки документов, в дополнение к уже готовому
рубрикатору ИС "Парк". В систему можно ввести такой сервис, как "ловушки" для документов -
можно отслеживать документы, попадающие в некоторую, представляющую особый интерес
область карты. Естественно сам алгоритм предполагает достаточно простую реализацию поиска
документов, похожих на данный по содержанию. WebSOM представляет собой готовый полигон
для социологических исследований. С его помощью можно отслеживать пики плотности
распределения, строить карты для документов, датированных определенными отрезками времени
и по пикам плотности и взаимному расположению областей отслеживать эволюцию тематики и
акцентов для новостийных лент, входящей информации, телеконференций. С другой стороны
предполагается развитие WebSOM в сторону трехмерного представления информации из
предметной области. Так что, вполне возможно, скоро начнутся разработки реализации
WebSOM на VRML, специальном языке моделирования трехмерных миров в WWW.
[Назад]
[Содержание]
[Вперед]