Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware
Скидка до 20% на услуги дата-центра. Аренда серверной стойки. Colocation от 1U!

Миграция в облако #SotelCloud. Виртуальный сервер в облаке. Выбрать конфигурацию на сайте!

Виртуальная АТС для вашего бизнеса. Приветственные бонусы для новых клиентов!

Виртуальные VPS серверы в РФ и ЕС

Dedicated серверы в РФ и ЕС

По промокоду CITFORUM скидка 30% на заказ VPS\VDS

VPS/VDS серверы. 30 локаций на выбор

Серверы VPS/VDS с большим диском

Хорошие условия для реселлеров

4VPS.SU - VPS в 17-ти странах

2Gbit/s безлимит

Современное железо!

Корпоративная система управления документами Excalibur EFS

М.Каменнова, А.Старыгин, МетаТехнология


В основе концепции электронного документа лежит ставшая в конце 80-х годов общепринятой идея манипуляции информацией в электронной, а не в бумажной форме.
Современный электронный документ должен выглядеть для конечного пользователя также как привычный бумажный документ (с различными шрифтами, форматированием, иллюстрациями, печатями, подписями и т.д.), и обрабатываться с помощью последовательного применения тесно взаимосвязанных технологий в рамках так называемых систем управления электронными документами (Electronic Document Management Systems - EDMS).
Системы EDMS, относящиеся к первому поколению, появились в середине 80-х годов. Технология работы с ними строится на использование ключевых слов для индексации и поиска документов (рис. 1). Это означает, что после того, как документ отсканирован и получен его графический образ, необходимо приписать образу каждого документа набор ключевых слов, которые затем индексируются, и по ним происходит поиск информации.

Рис. 1. Технология работы систем EDMS первого поколения

Суть индексирования по ключевым словам (или атрибутного индексирования) заключается в том, что для каждого вводимого или сохраняемого документа заполняются соответствующие поля в индексном файле. Заполнение осуществляется как вручную, так и с помощью программы, которая по какому-либо признаку выделяет в документе значения ключей/атрибутов.
Серьезные ограничения при использовании этих систем связаны со следующими обстоятельствами:

  • Определение ключевых слов - достаточно субъективный процесс; даже при участии самого независимого эксперта трудно избежать одностороннего влияния и субъективности при выборе ключевых слов.
  • Определение ключевых слов - достаточно дорогостоящая процедура (по оценкам AIIM** составляет от $5 до $20 на документ) из-за невозможности автоматической индексации и низкой производительности при определении ключевых слов вручную.
  • Предполагается, что пользователи будут осуществлять поиск информации предсказуемым способом, т.е. по тем ключевым словам, которые были заложены.
  • Поиск по ключевым словам - это четкий поиск, т.е. пользователь должен знать в точности то, что он ищет. Если сделана ошибка при написании ключевого слова в запросе для поиска, система никогда не найдет нужную информацию.
  • Ключевые слова могут меняться со временем, т.е. понятия, которые были "ключевыми" вчера, вовсе не необязательно будут столь же важны через год.
Технология работы с системами EDMS второго поколения представлена на рис. 2. Если документ вводится в систему с помощью сканера, его графический образ преобразуется в текстовый файл с помощью средств распознавания символов.

Рис. 2. Технология работы систем EDMS второго поколения

Поиск информации в таких системах происходит с помощью механизмов полнотекстового поиска (Full Text Retrieval). Принципиальным технологическим новшеством в системах EDMS второго поколения явилось использование оптического распознавания символов (Optical Character Recognition - OCR).
Оптическое распознавание символов - одна из основных компонент для большинства современных систем управления документами, особенно тех из них, в которых большую роль играет ввод текстов в систему. Хотя современные технологии OCR позволяют достаточно надежно распознавать высококачественные бумажные документы, они не могут гарантировать абсолютной надежности во всех случаях. Поэтому в процесс распознавания текста, как мы видим из рис. 2, включен процесс ручной правки, в ходе которого исходный текст сверяется с полученным ASCII-файлом. Вокруг проблемы доводки, исправления и повторного ввода текстов, прошедших распознавание, выросла целая индустрия.
Несомненно, этот очень медленный и дорогостоящий процесс исправления текста является серьезным "узким местом" в автоматизации управления электронными документами и приводит к значительным скрытым расходам при использовании систем с четким поиском, особенно если вы вводите старые, не слишком хорошего качества документы.
Среди других "узких мест" рассматриваемых систем EDMS можно назвать:

  • Механизм четкого поиска не позволит вам найти информацию, если были допущены ошибки при распознавании текста или при написании запроса.
  • Из-за необходимости "очистки" текста стоимость обработки документов достаточно велика - от $2 до $10 на страницу.
  • Индекс, создаваемый такими системами, обычно составляет от 100 до 400% от объема исходного текста, что означает увеличение времени поиска и ресурсов компьютера.
В начале 90-х годов появились технологические разработки, связанные с индексацией и поиском документов и использующие результаты, полученные в области нейронных сетей и искусственного интеллекта. Они позволили сформулировать принципиально новые концепции построения систем управления неструктурированной информацией в электронном виде.
Компания Excalibur Technologies разработала и представила на рынке технологию адаптивного распознавания образов APRP(Adaptive Pattern Recognition Processing), которая была положена в основу программного продукта - систему управления документами Excalibur EFS. Технология APRP основана на нейронных сетях. Она позволяет не только обойти проблемы ошибок распознавания текстов, но и предоставляет возможности автоматического индексирования и поиска различных типов неструктурированной информации в электронной форме.
Компания Excalibur Technologies разработала библиотеки, реализующие нечеткий поиск информации различной природы:
  • Библиотека TRS - Text Recognition Software - предназначена для индексации и нечеткого поиска текстовой информации
  • Библиотека SRC - Signal/Sound Recognition Software - предназначена для распознавания (индексации и нечеткого поиска) голосовой, звуковой и сигнальной информации
  • Библиотека VRS - Visual Recognition Software - предназначена для индексации и нечеткого поиска изображений (например, поиск по фотографиям, отпечаткам пальцев и т.д.)
Технология адаптивного распознавания образов легла в основу коммерческого программного продукта Excalibur EFS - системы управления электронными документами третьего поколения. Технология работы с системой Excalibur EFS включает те же этапы (рис. 3), что и работа с системами EDMS второго поколения. Однако, отсутствует самый дорогостоящий и трудоемкий этап - исправление ошибок в тексте документа после распознавания.

Рис. 3. Технология работы системы EDMS третьего поколения Excalibur EFS

Отметим основные преимущества, которые дает Excalibur EFS для контекстного поиска текста:

  • нечеткий поиск;
    В технологии APRP под нечетким поиском понимается возможность найти достаточно близкое приближение к запрошенному термину или фразе.
    Нечеткий поиск устраняет для пользователя необходимость знать правильное написание каждого термина, с которым он работает. Поскольку Excalibur EFS работает не с ключевыми словами, а с образами, две-три ошибочные буквы в слове или фразе не могут существенно изменить базовую картину текста. Таким образом, автоматически становится допустимой ошибка как во входных данных, так и в терминах запроса. Excalibur EFS всегда в состоянии найти ближайшее приближение к терминам и фразам, заданным в качестве объектов поиска.
  • автоматическая индексация;
    При использовании Excalibur EFS можно проиндексировать все данные, не указывая ключевых слов или полей базы данных, не привлекая администратора базы данных и не прибегая к экспертам для определения значимости того или иного слова или фразы по сравнению с другими словами или фразами.
  • управление точностью поиска;
    Excalibur EFS позволяет улучшить параметры процесса поиска данных, обеспечивая возможность пользователю самому определять степень совпадения найденной информации с запросом. Вы можете сформулировать эффективный запрос без необходимости знать правильное написание слов или фраз. Получив запрос найти какой-либо документ, система просматривает образы и составляет список "ближайших приближений" к тому, что было описано в запросе. Затем система упорядочивает содержимое этой области по степени вероятности того, что тот или иной найденный на этом этапе документ является истинной целью поиска. Вы можете установить "ближайшую десятку", "ближайшую сотню" и т.д. Это потенциально создает среду поиска, в которой пользователь может проводить поиск в интерактивном режиме, чтобы найти ответ, предварительно не определив точно, что же является ответом.
  • высокая скорость поиска информации.
    Программные системы, базирующиеся на методологии APRP, имеют возможность динамически использовать ресурсы и архитектуру компьютера для получения быстрейшего и точного доступа к информации. Поскольку индекс занимает минимальный объем, его можно с высокой скоростью загрузить в память любого компьютера в сети и работать с ним со скоростью двоичных логических операций.

[Назад] [Содержание] [Вперед]
Бесплатный конструктор сайтов и Landing Page

Хостинг с DDoS защитой от 2.5$ + Бесплатный SSL и Домен

SSD VPS в Нидерландах под различные задачи от 2.6$

✅ Дешевый VPS-хостинг на AMD EPYC: 1vCore, 3GB DDR4, 15GB NVMe всего за €3,50!

🔥 Anti-DDoS защита 12 Тбит/с!

VPS в России, Европе и США

Бесплатная поддержка и администрирование

Оплата российскими и международными картами

🔥 VPS до 5.7 ГГц под любые задачи с AntiDDoS в 7 локациях

💸 Гифткод CITFORUM (250р на баланс) и попробуйте уже сейчас!

🛒 Скидка 15% на первый платеж (в течение 24ч)

Новости мира IT:

Архив новостей

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 495 7861149
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2019 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...