Корпоративная система управления
документами Excalibur EFS
М.Каменнова, А.Старыгин, МетаТехнология
В основе концепции электронного документа лежит ставшая в конце 80-х годов общепринятой
идея манипуляции информацией в электронной, а не в бумажной форме.
Современный электронный документ должен выглядеть для конечного пользователя также как
привычный бумажный документ (с различными шрифтами, форматированием, иллюстрациями,
печатями, подписями и т.д.), и обрабатываться с помощью последовательного применения тесно
взаимосвязанных технологий в рамках так называемых систем управления электронными
документами (Electronic Document Management Systems - EDMS).
Системы EDMS, относящиеся к первому поколению, появились в середине 80-х годов.
Технология работы с ними строится на использование ключевых слов для индексации и поиска
документов (рис. 1). Это означает, что после того, как документ отсканирован и получен его
графический образ, необходимо приписать образу каждого документа набор ключевых слов,
которые затем индексируются, и по ним происходит поиск информации.
Рис. 1. Технология работы
систем EDMS первого поколения
Суть индексирования по ключевым словам (или атрибутного индексирования) заключается в
том, что для каждого вводимого или сохраняемого документа заполняются соответствующие
поля в индексном файле. Заполнение осуществляется как вручную, так и с помощью программы,
которая по какому-либо признаку выделяет в документе значения ключей/атрибутов.
Серьезные ограничения при использовании этих систем связаны со следующими
обстоятельствами:
- Определение ключевых слов - достаточно субъективный процесс; даже при
участии самого независимого эксперта трудно избежать одностороннего влияния
и субъективности при выборе ключевых слов.
- Определение ключевых слов - достаточно дорогостоящая процедура (по
оценкам AIIM** составляет от $5 до $20 на документ) из-за невозможности
автоматической индексации и низкой производительности при определении
ключевых слов вручную.
- Предполагается, что пользователи будут осуществлять поиск информации
предсказуемым способом, т.е. по тем ключевым словам, которые были
заложены.
- Поиск по ключевым словам - это четкий поиск, т.е. пользователь должен
знать в точности то, что он ищет. Если сделана ошибка при написании ключевого
слова в запросе для поиска, система никогда не найдет нужную информацию.
- Ключевые слова могут меняться со временем, т.е. понятия, которые были
"ключевыми" вчера, вовсе не необязательно будут столь же важны через
год.
Технология работы с системами EDMS второго поколения представлена на рис. 2. Если
документ вводится в систему с помощью сканера, его графический образ преобразуется в
текстовый файл с помощью средств распознавания символов.
Рис. 2. Технология работы
систем EDMS второго поколения
Поиск информации в таких системах происходит с помощью механизмов полнотекстового
поиска (Full Text Retrieval). Принципиальным технологическим новшеством в системах EDMS
второго поколения явилось использование оптического распознавания символов (Optical
Character Recognition - OCR).
Оптическое распознавание символов - одна из основных компонент для большинства
современных систем управления документами, особенно тех из них, в которых большую роль
играет ввод текстов в систему. Хотя современные технологии OCR позволяют достаточно
надежно распознавать высококачественные бумажные документы, они не могут гарантировать
абсолютной надежности во всех случаях. Поэтому в процесс распознавания текста, как мы
видим из рис. 2, включен процесс ручной правки, в ходе которого исходный текст сверяется с
полученным ASCII-файлом. Вокруг проблемы доводки, исправления и повторного ввода текстов,
прошедших распознавание, выросла целая индустрия.
Несомненно, этот очень медленный и дорогостоящий процесс исправления текста является
серьезным "узким местом" в автоматизации управления электронными документами и приводит
к значительным скрытым расходам при использовании систем с четким поиском, особенно если
вы вводите старые, не слишком хорошего качества документы.
Среди других "узких мест" рассматриваемых систем EDMS можно назвать:
- Механизм четкого поиска не позволит вам найти информацию, если были
допущены ошибки при распознавании текста или при написании запроса.
- Из-за необходимости "очистки" текста стоимость обработки документов
достаточно велика - от $2 до $10 на страницу.
- Индекс, создаваемый такими системами, обычно составляет от 100 до 400%
от объема исходного текста, что означает увеличение времени поиска и ресурсов
компьютера.
В начале 90-х годов появились технологические разработки, связанные с индексацией и поиском
документов и использующие результаты, полученные в области нейронных сетей и
искусственного интеллекта. Они позволили сформулировать принципиально новые концепции
построения систем управления неструктурированной информацией в электронном виде.
Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного
распознавания образов APRP(Adaptive Pattern Recognition Processing), которая была положена в
основу программного продукта - систему управления документами Excalibur EFS. Технология
APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок
распознавания текстов, но и предоставляет возможности автоматического индексирования и
поиска различных типов неструктурированной информации в электронной форме.
Компания Excalibur Technologies разработала библиотеки, реализующие нечеткий поиск
информации различной природы:
- Библиотека TRS - Text Recognition Software - предназначена для индексации
и нечеткого поиска текстовой информации
- Библиотека SRC - Signal/Sound Recognition Software - предназначена для
распознавания (индексации и нечеткого поиска) голосовой, звуковой и
сигнальной информации
- Библиотека VRS - Visual Recognition Software - предназначена для
индексации и нечеткого поиска изображений (например, поиск по фотографиям,
отпечаткам пальцев и т.д.)
Технология адаптивного распознавания образов легла в основу коммерческого программного
продукта Excalibur EFS - системы управления электронными документами третьего поколения.
Технология работы с системой Excalibur EFS включает те же этапы (рис. 3), что и работа с
системами EDMS второго поколения. Однако, отсутствует самый дорогостоящий и трудоемкий
этап - исправление ошибок в тексте документа после распознавания.
Рис. 3. Технология работы
системы EDMS третьего поколения Excalibur EFS
Отметим основные преимущества, которые дает Excalibur EFS для контекстного поиска
текста:
- нечеткий поиск;
В технологии APRP под нечетким поиском понимается возможность найти достаточно близкое
приближение к запрошенному термину или фразе.
Нечеткий поиск устраняет для пользователя необходимость знать правильное написание
каждого термина, с которым он работает. Поскольку Excalibur EFS работает не с ключевыми
словами, а с образами, две-три ошибочные буквы в слове или фразе не могут существенно
изменить базовую картину текста. Таким образом, автоматически становится допустимой
ошибка как во входных данных, так и в терминах запроса. Excalibur EFS всегда в состоянии
найти ближайшее приближение к терминам и фразам, заданным в качестве объектов поиска.
- автоматическая индексация;
При использовании Excalibur EFS можно проиндексировать все данные, не указывая
ключевых слов или полей базы данных, не привлекая администратора базы данных и не
прибегая к экспертам для определения значимости того или иного слова или фразы по
сравнению с другими словами или фразами.
- управление точностью поиска;
Excalibur EFS позволяет улучшить параметры процесса поиска данных, обеспечивая
возможность пользователю самому определять степень совпадения найденной
информации с запросом. Вы можете сформулировать эффективный запрос без
необходимости знать правильное написание слов или фраз. Получив запрос найти
какой-либо документ, система просматривает образы и составляет список "ближайших
приближений" к тому, что было описано в запросе. Затем система упорядочивает
содержимое этой области по степени вероятности того, что тот или иной найденный на
этом этапе документ является истинной целью поиска. Вы можете установить
"ближайшую десятку", "ближайшую сотню" и т.д. Это потенциально создает среду
поиска, в которой пользователь может проводить поиск в интерактивном режиме, чтобы
найти ответ, предварительно не определив точно, что же является ответом.
- высокая скорость поиска информации.
Программные системы, базирующиеся на методологии APRP, имеют возможность
динамически использовать ресурсы и архитектуру компьютера для получения
быстрейшего и точного доступа к информации. Поскольку индекс занимает
минимальный объем, его можно с высокой скоростью загрузить в память любого
компьютера в сети и работать с ним со скоростью двоичных логических операций.
[Назад]
[Содержание]
[Вперед]