Корпоративная система управления документами Excalibur EFS

Данные Разработка Безопасность Инфраструктура Курсы и книги

Корпоративная система управления документами Excalibur EFS

М.Каменнова, А.Старыгин, МетаТехнология

В основе концепции электронного документа лежит ставшая в конце 80-х годов общепринятой идея манипуляции информацией в электронной, а не в бумажной форме.
Современный электронный документ должен выглядеть для конечного пользователя также как привычный бумажный документ (с различными шрифтами, форматированием, иллюстрациями, печатями, подписями и т.д.), и обрабатываться с помощью последовательного применения тесно взаимосвязанных технологий в рамках так называемых систем управления электронными документами (Electronic Document Management Systems - EDMS).
Системы EDMS, относящиеся к первому поколению, появились в середине 80-х годов. Технология работы с ними строится на использование ключевых слов для индексации и поиска документов (рис. 1). Это означает, что после того, как документ отсканирован и получен его графический образ, необходимо приписать образу каждого документа набор ключевых слов, которые затем индексируются, и по ним происходит поиск информации.

Рис. 1. Технология работы систем EDMS первого поколения

Суть индексирования по ключевым словам (или атрибутного индексирования) заключается в том, что для каждого вводимого или сохраняемого документа заполняются соответствующие поля в индексном файле. Заполнение осуществляется как вручную, так и с помощью программы, которая по какому-либо признаку выделяет в документе значения ключей/атрибутов.
Серьезные ограничения при использовании этих систем связаны со следующими обстоятельствами:

Определение ключевых слов - достаточно субъективный процесс; даже при участии самого независимого эксперта трудно избежать одностороннего влияния и субъективности при выборе ключевых слов.
Определение ключевых слов - достаточно дорогостоящая процедура (по оценкам AIIM** составляет от $5 до $20 на документ) из-за невозможности автоматической индексации и низкой производительности при определении ключевых слов вручную.
Предполагается, что пользователи будут осуществлять поиск информации предсказуемым способом, т.е. по тем ключевым словам, которые были заложены.
Поиск по ключевым словам - это четкий поиск, т.е. пользователь должен знать в точности то, что он ищет. Если сделана ошибка при написании ключевого слова в запросе для поиска, система никогда не найдет нужную информацию.
Ключевые слова могут меняться со временем, т.е. понятия, которые были "ключевыми" вчера, вовсе не необязательно будут столь же важны через год.

Технология работы с системами EDMS второго поколения представлена на рис. 2. Если документ вводится в систему с помощью сканера, его графический образ преобразуется в текстовый файл с помощью средств распознавания символов.

Рис. 2. Технология работы систем EDMS второго поколения

Поиск информации в таких системах происходит с помощью механизмов полнотекстового поиска (Full Text Retrieval). Принципиальным технологическим новшеством в системах EDMS второго поколения явилось использование оптического распознавания символов (Optical Character Recognition - OCR).
Оптическое распознавание символов - одна из основных компонент для большинства современных систем управления документами, особенно тех из них, в которых большую роль играет ввод текстов в систему. Хотя современные технологии OCR позволяют достаточно надежно распознавать высококачественные бумажные документы, они не могут гарантировать абсолютной надежности во всех случаях. Поэтому в процесс распознавания текста, как мы видим из рис. 2, включен процесс ручной правки, в ходе которого исходный текст сверяется с полученным ASCII-файлом. Вокруг проблемы доводки, исправления и повторного ввода текстов, прошедших распознавание, выросла целая индустрия.
Несомненно, этот очень медленный и дорогостоящий процесс исправления текста является серьезным "узким местом" в автоматизации управления электронными документами и приводит к значительным скрытым расходам при использовании систем с четким поиском, особенно если вы вводите старые, не слишком хорошего качества документы.
Среди других "узких мест" рассматриваемых систем EDMS можно назвать:

Механизм четкого поиска не позволит вам найти информацию, если были допущены ошибки при распознавании текста или при написании запроса.
Из-за необходимости "очистки" текста стоимость обработки документов достаточно велика - от $2 до $10 на страницу.
Индекс, создаваемый такими системами, обычно составляет от 100 до 400% от объема исходного текста, что означает увеличение времени поиска и ресурсов компьютера.

В начале 90-х годов появились технологические разработки, связанные с индексацией и поиском документов и использующие результаты, полученные в области нейронных сетей и искусственного интеллекта. Они позволили сформулировать принципиально новые концепции построения систем управления неструктурированной информацией в электронном виде.
Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного распознавания образов APRP(Adaptive Pattern Recognition Processing), которая была положена в основу программного продукта - систему управления документами Excalibur EFS. Технология APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок распознавания текстов, но и предоставляет возможности автоматического индексирования и поиска различных типов неструктурированной информации в электронной форме.
Компания Excalibur Technologies разработала библиотеки, реализующие нечеткий поиск информации различной природы:

Библиотека TRS - Text Recognition Software - предназначена для индексации и нечеткого поиска текстовой информации
Библиотека SRC - Signal/Sound Recognition Software - предназначена для распознавания (индексации и нечеткого поиска) голосовой, звуковой и сигнальной информации
Библиотека VRS - Visual Recognition Software - предназначена для индексации и нечеткого поиска изображений (например, поиск по фотографиям, отпечаткам пальцев и т.д.)

Технология адаптивного распознавания образов легла в основу коммерческого программного продукта Excalibur EFS - системы управления электронными документами третьего поколения. Технология работы с системой Excalibur EFS включает те же этапы (рис. 3), что и работа с системами EDMS второго поколения. Однако, отсутствует самый дорогостоящий и трудоемкий этап - исправление ошибок в тексте документа после распознавания.

Рис. 3. Технология работы системы EDMS третьего поколения Excalibur EFS

Отметим основные преимущества, которые дает Excalibur EFS для контекстного поиска текста:

нечеткий поиск;
В технологии APRP под нечетким поиском понимается возможность найти достаточно близкое приближение к запрошенному термину или фразе.
Нечеткий поиск устраняет для пользователя необходимость знать правильное написание каждого термина, с которым он работает. Поскольку Excalibur EFS работает не с ключевыми словами, а с образами, две-три ошибочные буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. Excalibur EFS всегда в состоянии найти ближайшее приближение к терминам и фразам, заданным в качестве объектов поиска.
автоматическая индексация;
При использовании Excalibur EFS можно проиндексировать все данные, не указывая ключевых слов или полей базы данных, не привлекая администратора базы данных и не прибегая к экспертам для определения значимости того или иного слова или фразы по сравнению с другими словами или фразами.
управление точностью поиска;
Excalibur EFS позволяет улучшить параметры процесса поиска данных, обеспечивая возможность пользователю самому определять степень совпадения найденной информации с запросом. Вы можете сформулировать эффективный запрос без необходимости знать правильное написание слов или фраз. Получив запрос найти какой-либо документ, система просматривает образы и составляет список "ближайших приближений" к тому, что было описано в запросе. Затем система упорядочивает содержимое этой области по степени вероятности того, что тот или иной найденный на этом этапе документ является истинной целью поиска. Вы можете установить "ближайшую десятку", "ближайшую сотню" и т.д. Это потенциально создает среду поиска, в которой пользователь может проводить поиск в интерактивном режиме, чтобы найти ответ, предварительно не определив точно, что же является ответом.
высокая скорость поиска информации.
Программные системы, базирующиеся на методологии APRP, имеют возможность динамически использовать ресурсы и архитектуру компьютера для получения быстрейшего и точного доступа к информации. Поскольку индекс занимает минимальный объем, его можно с высокой скоростью загрузить в память любого компьютера в сети и работать с ним со скоростью двоичных логических операций.