Logo Море(!) аналитической информации!
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware
Обучение от Mail.Ru Group.
Онлайн-университет
для программистов с
гарантией трудоустройства.
Набор открыт!

Архив без пыльных полок или способы организации архива предприятия

Алексей Рындин (Главный инженер проектов), aryndin@esg.spb.ru
Опубликовано в журнале JetInfo http://www.jetinfo.ru/

Основная часть

Что же такое "Электронный архив предприятия"?

Что же такое система электронного архива предприятия? Выше подробно приводились 4 способа, которыми Вы можете двигаться к цели. Каким путем идти решать только Вам, исходя из потребностей предприятия и прочих факторов, включая, конечно, стоимость решения и экономический эффект, ожидаемый при его внедрении.

В наиболее общем и "полном" случае, системе электронного архива можно дать приблизительно следующее определение:

Программно — аппаратный комплекс, решающий задачи: учета документов, их хранения; управления доступом; создания электронных документов всех информационных потоков предприятия; управления документооборотом; управления использованием хранимой информации, в том числе и для разработки новой. Решение включает в себя элементы технологии создания и технологии работы с ним. Информация используется как в электронном виде, так и в "традиционном бумажном", т. к. учитывается возможность тиражирования (печати).

Возможно специфика Ваших задач добавит или исключит из приведенного определения что-либо. В связи с этим и указана его "приблизительность". Определение приведено для наиболее полного решения проблемы создания системы электронного архива (4 способ). Повторюсь, что способов 4, все они возникали в процессе эволюции, но ни один не является "тупиковой ветвью". Например, если Вам не нужно управлять процессами разработки новых документов, управлять информационными потоками и документооборотом, вычеркните эти свойства из определения и получите 3 способ создания системы электронного архива.

Обоснуем отдельные положения определения. Почему комплекс имеет программную часть, думаю, подробно объяснять не стоит. "Центром" системы является программный продукт — система архива и документооборота. Документы всех потоков создаются в электронном виде при помощи программных средств. Программно осуществляется обработка отсканированных бумажных носителей и (или) микрофильмов. Управление же имеющимися аппаратными средствами также осуществляется специализированными программами.

"Аппаратная" часть комплекса включает сканирующее оборудование, оборудование для тиражирования (печати). Естественно, к этой части необходимо отнести сетевое оборудование, сервер, рабочие станции и специализированные устройства хранения.

На системе учета, доступа, управления созданием документов всех информационных потоков мы останавливались подробно выше. Лишь добавим, что документы могут создаваться как в программных средствах разработки, так и "источником" электронного документа может являться сканер. В некоторых случаях вносится лишь учетная запись о документе (например, Вам достаточно создать лишь картотеку или нет возможности отсканировать документ).

Технология создания и использования решения подробно описывается ниже. Скажем лишь, что при её отсутствии Вы имеете лишь набор программ и "железа".

Различные взгляды на состав решения

Как от общих, более теоретических взглядов, перейти к практике и создать систему электронного архива? Опыт показывает, данный вопрос имеет две стороны: с одной — сколько предприятий, столько и взглядов, с другой стороны, с точки зрения математической статистики и теории вероятностей, логика присутствует везде и не существует "абсолютного хаоса". Поэтому во всех взглядах на решение существуют не только различия, но и общие стороны.

Общее и различное во взглядах. Модульность решения

Из общих взглядов на создание системы электронного архива, кроме того, что "она должна быть" (иначе весь этот материал не имел — бы смысла) можно отметить следующие:

  • Система должна хранить информацию;
  • Система должна регистрировать информацию;
  • Система должна предоставлять информацию;
  • Система должна позволять использовать информацию (не только "смотреть", но и редактировать, создавать новую на основе ранее созданной, причем, не "нанося ущерб" ранее помещенной на хранение информации);
  • Система должна управлять информацией;
  • Система должна быть модульной.

Все перечисленные пункты, кроме последнего, достаточно подробно описывались выше. Различия в их реализации определяет лишь специфика предприятия. Остановимся на модульности решения. Для более полного описания будем рассматривать четвертый способ создания системы — архив и документооборот. На рисунке изображено "модульное" представление решения.

Можно выделить следующие основные подсистемы системы электронного архива (Рис. 2):

  • Подсистема ввода. Она, в свою очередь, включает:
    а) Подсистему ввода сканированных документов, включающую средства перевода документов в электронный вид, средства обработки изображений, средства ввода в систему электронного архива. Подсистема ввода сканированных документов состоит из:

    • Подсистемы ввода узкоформатных документов;
    • Подсистемы ввода широкоформатных документов.
    б) Подсистему ввода документов, создаваемых сразу в электронном виде.
  • Подсистема хранения. Она включает в себя:
    а) Области оперативного хранения;
    б) Области долгосрочного архивного хранения.
  • Подсистема тиражирования. Она включает в себя:
    а) Подсистему тиражирования узкоформатных документов;
    б) Подсистему тиражирования широкоформатных документов.
  • Подсистема приложений. Она, в свою очередь, включает:
    а) ПО управления аппаратными средствами;
    б) ПО обработки сканированных изображений;
    в) Средства разработки электронных документов;
    г) ПО электронного архива и документооборота, включающее:

    • СУБД;
    • "Серверную часть";
    • "Клиентские части".
    д) Дополнительные программные средства. Например, конверторы таблиц для разных СУБД (при создании единого информационного пространства) и т. д.
  • Дополнительное оборудование. В свою очередь, включает:
    а) Сервер системы;
    б) Рабочие станции;
    в) Сетевое оборудование.

Сделаем некоторые замечания к приведенной классификации подсистем. Во-первых, Вашей системе электронного архива возможно и не понадобятся все из них. В этом случае "ненужное" можно просто исключить. Во-вторых, невозможно определить четкие границы между подсистемами. Например, при использовании определенного оборудования одно и то же устройство может относиться к подсистеме тиражирования и сканирования одновременно. Так инженерный комплекс OCE', например, и сканирует, и печатает, и используется как копировальный аппарат. Можно приводить достаточно много примеров использования аппаратных и программных средств одновременно в разных подсистемах, но подобные примеры совсем не исключают фактов наличия этих подсистем. В отдельных случаях одно средство может выполнять несколько различных функций, а в некоторых — нет.

С чего начать?

Постараемся подробно и по пунктам изложить алгоритм действий при создании системы электронного архива. Отметим, что порядок действий, конечно, может быть изменен вследствие специфики задач. Но в большинстве случаев, как правило, удовлетворяет приведенная последовательность.

Прежде всего, необходимо четко поставить задачи по дальнейшему использованию архива.

Как указывалось выше, существуют основные 4 способа. Конечно, деление весьма условно, но выбранный Вами путь будет близок к одному из описанных. Проще всего взять схему решения 4 способом, приведенную выше, и список всех входящих в неё подсистем, расположенные в разделе "Модульность решения". Далее стоит внимательно посмотреть на все входящие подсистемы и вычеркнуть лишние. Не исключено, что у Вас возникнет желание добавить что-нибудь "свое", поскольку невозможно предусмотреть в статье специфику именно Вашего предприятия.

Давайте теперь проведем детальное обследование Вашего предприятия.

При разработке решения обязательно учитываются:

  • Род деятельности предприятия;
  • Какие информационные потоки присутствуют;
  • Какие документы являются основными;
  • "Сопутствующие" документы";
  • Какие документы из старого "бумажного" архива или из архива микрофильмов необходимы прямо сейчас, а какие можно и не спешить переводить в электронный вид;
  • В каких приложениях (средствах разработки) создаются новые документы в электронном виде (особенно, есть ли многофайловые документы, файлы которых имеют связи, например, трехмерные модели и т. д.);
  • Какие информационные потоки предприятия должна охватывать создаваемая система;
  • Необходимые атрибуты документов (поля таблиц СУБД) для организации поиска;
  • Существующие средства автоматизации процессов — предмет изучения на возможность создания единого информационного пространства;
  • Перспективы развития системы автоматизации предприятия. На этом пункте стоит остановиться подробнее.

Возможно в ближайшее время на Вашем предприятии планируется внедрение новых приложений для разработки документов. Учитывать перспективы развития особенно необходимо при планировании внедрения сложных САПР. Дело в том, что подобные средства разработки создают достаточно сложные файловые структуры (например, трехмерная модель может содержать сотни файлов, имеющих связи).

Для работы с такими средствами разработки необходимо, чтобы Ваша система архива и документооборота не просто позволяла сопоставлять одной учетной записи несколько файлов сложной модели (что тоже является обязательным в приводимом примере), а еще и имела механизм экспорта-импорта структуры изделия (модели). Только в этом случае введение подобных документов в электронный архив не будет долгим и неудобным.

При наличии прямых интерфейсов с подобными системами моделирования вся структура модели переносится в архив автоматически с учетом связей, существующих между файлами.

В этом месте изложения материала стоит предостеречь от заявлений некоторых фирм, никогда не работавших на рынке САПР, о том, что "система обычного административного архива и документооборота способна работать с любым типом файлов". Следует сразу игнорировать заявления такого рода, поскольку, как правило, они звучат из уст людей, не имеющих представления о САПР и системах моделирования.

Для работы с такого рода средствами разработки Ваша система архива и документооборота перед тем, как записать все файлы, например, сложной трехмерной модели, должна проанализировать внутренние связи между ними и переписать их для файлов, размещаемых в электронном архиве. В случае же, если Вы работаете лишь в офисных приложениях и средствах разработки, создающих "однофайловые" документы, задача несколько упрощается, и стоимость законченного решения снижается.

Расстановка приоритетов, планирование деятельности.

Давайте теперь расставим приоритеты в создании тех или иных подсистем. Конечно, кроме Вас этого никто не сделает. Стоит лишь сказать, что необходимо учитывать все, что изложено в предыдущих пунктах.

Непосредственная реализация той или иной подсистемы

Ниже приведено подробное описание создания каждой подсистемы решения. Отметим два основных момента:

  • Последовательность реализации может быть изменена в зависимости от расставленных Вами приоритетов и не совпадать с последовательностью изложения материала;
  • В процессе реализации каждой подсистемы необходимо учесть вопросы внедрения и обучения персонала.

На самом деле, выше приведен список вопросов по предприятию, ответы на которые необходимы лишь для самого начального обследования. Вопросы более детальных обследований, возникающие при создании каждой подсистемы освещены ниже.

Создание подсистемы сканирования документов, постановка задачи

Перед созданием подсистемы сканирования, необходимо произвести детальное обследование Вашего "бумажного" архива.

Что представляет ценность, а от чего можно избавиться?

Прежде всего, необходимо определить ту часть документов, которая должна быть отсканирована. Эту работу можно сравнить с переездом в новую квартиру. Всегда найдется часть вещей, о существовании который Вы уже забыли. Иногда "вновь найденная" вещь вызывает радость, а иногда её хочется выбросить. Конечно, речь не идет об уничтожении ненужных документов. Просто нет необходимости сканировать их.

В какой электронный формат переводить?

Далее определяется в каком графическом формате Вам необходимы отсканированные документы. Это необходимо для дальнейшего подбора сканирующего оборудования.

Сначала стоит определиться с "цветом". Дело в том, что в большинстве случаев, при создании электронных архивов, достаточно получение монохромных изображений. Действительно, информацию может нести лишь изображение черных букв, линий на белом фоне. Исключением являются случаи сканирования, например, произведений искусства (которые не затрагивает данная статья) или довольно специфические задачи, которые необходимо будет решать с цветными изображениями. В действительности, постановки таких специфических задач по ряду причин, изложенных ниже, следует избегать. Всегда стоит помнить о следующих положительных сторонах монохромных изображений, которые сразу "исчезнут" при использовании цветных:

  • Физический размер файла монохромного изображения гораздо меньше, особенно при использовании алгоритмов сжатия. Выше приводился пример о сравнении размера файла, полученного при сканировании листа, созданного в текстовом редакторе Word (его необходимо предварительно распечатать), сохраненного в формате TIFF Monochrome G4 и непосредственно файла документа Word формата DOC. Размеры файлов не будут иметь существенных различий. Поэтому требования к "объему" подсистемы хранения ниже, соответственно, меньше материальные затраты;
  • Оборудование для массового перевода в монохромные форматы гораздо производительнее, дешевле и надежнее.

Определение необходимого формата файла также связано с дальнейшим использованием электронных изображений отсканированных документов. Например, если Вам необходимо произвести дальнейшее распознавание, частичную или полную векторизацию или просто оставить изображения в графическом формате, лучше не "изобретать велосипед" и использовать формат TIFF Monochrome G4. Этот формат "выдает" любой сканер. Кроме того, существует возможность получения "одностраничных" и "многостраничных" файлов этого формата. В первом случае, каждая страница многостраничного бумажного документа записывается в отдельный файл, а во втором — весь документ представляет один файл, "внутри" которого Вы можете "листать" страницы.

Предположим, что перед Вами стоят специфические задачи. Например, с одной стороны, Вы собираетесь использовать доступ к графическим форматам в создаваемой системе архива и документооборота через навигатор, а с другой стороны, не хотите решать проблему вывода того же формата TIFF, который навигатор "не понимает". В этом случае Вам лучше использовать JPEG или GIF.

Хотя существуют способы, позволяющие хранить электронные изображения в форматах, "не воспринимаемых" навигаторами, но при этом все-таки вызывать изображения при помощи различных "ухищрений" на экран. Подобные "ухищрения" либо приводят к неудобству в работе, либо достаточно сложны в реализации. Например, если просто создать гиперссылку на документ *.tif, "кликнуть" по ней в окне навигатора и указать в открывшемся диалоге не "сохранить" файл на диске, а "открыть", будет вызвано "приложение по умолчанию" вашей системы для просмотра таких файлов, например, Imaging. Просмотреть и распечатать документ Вы сможете, возможно сможете внести изменения, а вот сохранить эти изменения, Вам вряд ли позволит WEB — сервер.

Для организации просмотра и редактирования файлов "внутри навигатора", форматы которых навигатор "не понимает", можно создать так называемый "сервер просмотра" — специальное приложение. Описание его не входит в рамки статьи, он отличается достаточной сложностью, что ведет к повышению общих затрат на реализацию решения.

И, наконец, необходимо определить разрешение, с которым должна сканироваться информация. Если речь не идет о произведениях искусства, то, поверьте, 300dpi, ну от силы 400 Вам будет больше чем достаточно (иногда для документов достаточно и 150 — 200 dpi). При таком разрешении Вы всегда сможете получить отличное изображение Вашего документа на экране или результат его печати на бумаге и производить дальнейшую обработку (например, распознавание). "Гнаться" за высоким разрешением сканированного документа просто бессмысленно. К тому же, чем выше разрешение, тем больше объем файла, соответственно время сканирования (даже промышленным или документным сканером), выше необходимый "объем" устройств хранения. И, конечно, выше стоимость решения! Не стану дальше обосновывать эту мысль.

Кто сомневается, тот может провести ряд экспериментов с обычным планшетным сканером, сканируя с разными разрешениями лист с текстом, получая файл, например, формата TIFF G4 Monocrome, далее пытаясь найти на экране или в результатах печати существенную разницу между изображением 300dpi и 1200dpi. При этом стоит сравнить время сканирования и размеры файлов...

Использование документов в новых проектах

Следующим этапом является, если так можно выразиться, "осмысление" дальнейшего использования сканированных документов. Понятно, что их необходимо занести в систему, дающую возможность поиска и вывода на экран и принтер или плоттер. Остановимся подробнее на другой функции создаваемой системы — создании новых документов на основе использования ранее зарегистрированных. Понятно, что лучше создать новую версию документа и производить все работы с ней. Но это задача непосредственно программного продукта — системы архива и документооборота.

Сейчас речь идет о средствах "внесения изменений" в создаваемый новый документ, имеющих непосредственное отношение к формату хранимых файлов. Здесь опять же не стоит "изобретать велосипед", а продолжать использовать имеющиеся средства разработки электронных документов для просмотра и редактирования. Как это происходит в системе электронного архива? Опять вернемся к API — интерфейсам.

Не будем лезть в дебри, скажем лишь, что в операционных системах Microsoft существует такой механизм ShellAPI, при использовании которого при помощи, например, функции Delphi ShellExecute, одним из аргументов которой является название файла, система сама "подсовывает" для открытия файла в режиме просмотра или редактирования то или иное приложение. Опять запутано? Тогда объясним проще. Вы нашли учетную запись об искомом документе, используя интерфейс системы архива. Учетная запись может быть выведена на экран либо в табличном виде, либо в другом виде (например, в виде карточки документа). Напомню, что для поиска учетной записи среди тысяч, а может и миллионов используется механизм запросов к СУБД. Запросы формируются через интерфейс системы архива при помощи доступных и наглядных для пользователя элементов (полей, кнопок и т. д.). Учетной записи соответствует реальный документ в электронном виде. Вы нажимаете кнопку или выбираете из меню (все зависит от реализации системы) пункт "открыть документ". Сканированный документ откроется приложением, проинсталлированным в Вашей системе для работы с файлами, например, формата TIFF, офисный документ откроется соответствующим приложением, например, MS Word.

Хотя не все так просто, как кажется на первый взгляд. В системах 3 типа (в них отсутствуют средства маршрутизации, управления разработкой), нет необходимости позволять вносить изменения в документ. Он может быть открыт программой — "просмотровщиком", не позволяющей вносить изменения или все-таки программой, позволяющей вносить изменения, но при этом система не позволит записать эти изменения.

В случае же, если используется система архива 4 типа, то, как правило, существует возможность указать для разных пользователей разные права по открытию файлов разных разделов хранения. Например в современных системах можно указать, что конструктор Сидоров может открывать файлы раздела "Проект №12345 1981 года" только в режиме просмотра соответствующей программой. А что если ему необходимо внести изменения в какой-нибудь компонент, пусть тот же компонент используется в проекте №54321 2002 года с небольшими изменениями, зачем разрабатывать новый? Все выглядит приблизительно следующим образом: поскольку пользователю Сидорову разрешено создавать версии документов и помещать их в раздел "компоненты проекта №54321 2002 года, разрабатываемые на основе проекта №12345 1981 года", он просто создаст новую версию, и она автоматически разместится в этом разделе. Кроме того, для Сидорова также определена возможность редактирования версий в разделе "компоненты проекта №54321 2002 года, разрабатываемые на основе проекта №12345 1981 года". Поэтому он открывает созданную им версию, но уже в режиме редактирования соответствующим приложением и вносит изменения. При этом могут производиться необходимые действия — новая версия рассылается другим пользователям, например, для проверки, дальнейшей доработки, может быть автоматически создано и разослано извещение об изменении и т. д.

Если Вы решите, что данные, хранимые в Вашем архиве, не нужно использовать при разработке новых документов, задача упрощается. При этом Вы просто реализуете 3 способ создания системы архива. Еще раз хочется напомнить, что в материале описывается 4 способ совсем не по той причине, что он лучше. В некоторых случаях, может оказаться совсем не так! Просто при описании такого способа создания архива, волей-неволей приходится описывать все остальные: файловые массивы; картотеки; архив, обобщающий файловый массив и картотеку со средствами просмотра, сканирования, тиражирования и хранения.

В каких форматах хранить и использовать переведенные в электронный вид документы

Перед созданием электронного архива (части касающейся сканированных документов), стоит, прежде всего, определиться с тем, что предполагается делать впоследствии с электронными документами. Существует несколько путей, "правильность" следования которым определять только Вам:

  • Внесение в единую базу документов в графических форматах после соответствующей обработки. В этом случае Вы используете электронные образы Ваших "бумаг". Можно быстро найти необходимый документ, просмотреть, тиражировать (распечатать). При необходимости использования этого документа для создания новых, возможно создание его новой версии, изменение при помощи растровых и гибридных редакторов, распознавание текстов и т. д. В любом случае при описываемом подходе, в электронном архиве хранятся документы в графических форматах. Для удобства поиска используется индексация (описание каждого документа по тем или иным признакам — полям СУБД, эти поля используются в SQL — запросах, позволяющих быстро найти необходимый документ или группу документов по тем или иным признакам);
  • Внесение в базу документов в текстовых форматах. Хранение в текстовом формате позволяет в дальнейшем производить поиск документов не только по полям СУБД, но и по ключевым значениям "внутри текста" самого документа. Такой способ поиска информации возможно более эффективен, но имеет следующие недостатки:

    • для поиска по тексту "внутри документа" чаще всего нужно записать текст в ячейку таблицы СУБД, что приводит при большом объеме к очень "неповоротливым решениям". Физический объем таблиц СУБД увеличивается, быстродействие системы снижается, ресурсоемкость увеличивается, а создание подсистемы хранения становится проблематичным. Для того, чтобы избежать перечисленных явлений, проще производить запись не самого файла, а ссылки на него в ячейку таблиц СУБД. Сам же файл "извлекается" по ссылке и хранится в отдельном архивном "накопителе". Подробнее подсистема хранения описывается ниже. Но при такой организации подсистемы хранения полнотекстовый поиск "внутри" самого документа средствами системы архива, как правило, невозможен. С другой стороны, для нахождения документа, как правило, "хватает" поиска по полям СУБД — "карточке" документа и при использовании других механизмов, не требующих полнотекстового поиска "внутри" самого документа;

      другой особенностью поиска "внутри" документа, полученного при сканировании, является необходимость его предварительного распознавания. Дело в том, что растровые форматы, получаемые "на выходе" сканера, не содержат "привычных" для SQL - запросов символов (букв, цифр и т. д.). Поэтому, эти символы необходимо "извлечь" из изображения и сохранить в текстовом формате. Информация в текстовом формате может быть записана в ячейку таблицы СУБД (например, имеющую формат TEXT для MsSQL). Теперь запрос, например, вида select texts from articles where text like '%архив%', произведет выбор всех текстов статей (хранящихся в поле texts таблицы articles), в которых встречается ключевое значение "архив". На первый взгляд достаточно привлекательно, но в свою очередь особенностью процесса распознавания ("извлечения" из графического формата символов и сохранения их в текстовом формате), является достаточная трудоемкость, и, не в обиду сказано производителям соответствующего ПО, большое количество ошибок, особенно при распознавании старых документов. Процесс имеет наиболее низкую эффективность, если применялись разные шрифты, не говоря уже о рукописных документах, которые распознавать крайне неэффективно, а чаще — невозможно.

  • Внесение в базу чертежей после их векторизации. Опять же такой способ связан с определенными (и не малыми) затратами, целесообразность которых определять только Вам.

При определении целесообразности того или иного пути, стоит помнить о вышесказанном и прибегать к "тотальному" распознаванию и "векторизации" только лишь в том случае, если затраты на эти действия экономически оправдывают себя.

Определение групп документов. Подбор сканирующего оборудования. Классификация документов и сканеров. Производительность оборудования

После проведения всех вышеперечисленных пунктов, наконец, мы подошли к решению еще "более практических" вопросов — выбору сканирующего оборудования. При выборе оборудования необходимо учитывать все вышеизложенные требования к сканированным документам.

Учет физических особенностей бумажных носителей, с одной стороны, и невозможность качественной реализации "универсального" устройства "все в одном", которое сканирует быстро и качественно любые документы, с другой стороны, привели к созданию нескольких основных групп оборудования. Например, листы формата A0 можно сканировать со скоростью до 15 метров/минуту при помощи одних устройств, листы формата A4 можно сканировать со скоростью 180 страниц/минуту при помощи других устройств, а сброшюрованные, ветхие, неконтрастные документы невозможно сканировать ни теми, ни другими устройствами. Для сканирования подобных типов "бумажных носителей информации" существует совершенно другое оборудование.

Исходя из вышесказанного, сначала необходимо провести классификацию подлежащих сканированию бумажных документов по форматам и определить число бумажных носителей каждого формата. Немного успокою Вас, поскольку с точностью до листа считать нет необходимости. Измерять документы, особенно нестандартные, при помощи линейки также не стоит. Условно, все документы по форматам можно разбить на 2 большие группы — узкоформатные (до A3 включительно) и широкоформатные ("больше" формата A3). Такая классификация связана с четким делением оборудования на "узкоформатное" и "широкоформатное". Это деление произведено не по чьей-либо прихоти, а связано с тем, что чисто "механические" принципы сканирования для узкоформатных и широкоформатных документов разные. Невозможно пока, например, сканировать формат A1 со скоростью 180 страниц/минуту, а формат A4 — можно.

"Внутри" каждой из групп стоит провести дополнительную классификацию по форматам. Приведем пример. Если у Вас в "узкоформатной" группе содержатся документы форматов от А4 и "меньше", то максимальный формат сканера должен быть А4. Зачем эти "прописные истины"? Дело в том, что большинство производителей сканирующего оборудования выпускает целые модельные ряды. Причем, как правило, Вам предоставляется возможность выбора сканера с максимальным форматом A3 или A4. Часто бывает, что качество, скорость сканирования обеих моделей (А3 и А4) одинакова, а стоимость существенно отличается (сканер, имеющий максимальный формат А3 дороже). Того же принципа придерживаются производители широкоформатного оборудования, выпуская, например, сканеры с максимальным форматом А1 и А0. Но может оказаться, что при наличии "подавляющего" числа документов формата A4, все-таки встречаются А3 или "чуть большие, чем А4". Как сканировать их? Об этом позже, а пока стоит посчитать количество материала и все записать.

Следующим шагом является определение "внутри" каждой группы форматов числа ветхих, поврежденных материалов и листов бумаги низкой плотности. Дело в том, что при использовании документного сканера, возможно повреждение таких листов.

Записав результаты обследования по предыдущему пункту, "внутри" каждого формата определяем количество "бликующих" и неконтрастных листов. Например, результат сканирования "блестящих" калек советского производства и неконтрастных "синек" может быть неудовлетворительным, и необходимо будет решать проблемы их сканирования путями, описанными ниже.

Стоить отметить, что каждая группа может и должна классифицироваться на односторонние и двусторонние документы.

Теперь стоит остановиться на определении количества сброшюрованных документов (папок, книг). И их классификации по следующим признакам:

  • Часть документов, которые могут быть расшиты перед сканированием;
  • Часть документов, которые расшивать нежелательно;
  • Форматы;
  • Состояние (часть неконтрастных и часть бликующих носителей).

Ну вот, пожалуй, приблизительно и все. Почему опять "приблизительно"? Дело в том, что очень сложно "воочию" не посмотрев на Ваши документы сказать, что все учтено. При классификации документов по различным признакам внутри каждого формата следует придерживаться следующего правила: чем больше признаков классификации, тем лучше! Например, если Вы видите, что группа документов "формата А4, хорошего качества, контрастных, не ветхих" содержит на некоторых листах пометки карандашом, которые несут важную информацию, стоит внутри этой группы обязательно создать две подгруппы: "документы, имеющие полезные дополнения, дописанные карандашом" и "прочие документы". Зачем? Все достаточно банально — одно оборудование хорошо отсканирует весь документ, а другое отсканирует так, что карандашные пометки, несущие полезную информацию, не отобразятся. Причем Вы сможете и не заметить отсутствие карандашной пометки на электронном изображении, поскольку все остальное видно отлично. При этом смысл документа может измениться.

Такую же классификацию можно провести "внутри" любой группы, например, чисто визуально разбить неконтрастные материалы по любому признаку, например, "совсем не контрастные", "неконтрастные" и "не очень контрастные".

Результатом всей Вашей предыдущей деятельности (не только по исследованию бумажных носителей!) перед последующим выбором оборудования должны быть следующие вещи:

  • Планируемые сроки сканирования документов, производительность подсистемы сканирования;
  • Необходимость дальнейшего пополнения архива вновь отсканированными документами;
  • Окончательное решение о формате электронного изображения;
  • Классификация документов по форматам, ветхости, состоянию, "сброшюрованности" и всем выявленным Вами при обследовании дополнительным признакам. Эту классификацию лучше всего составить в виде таблицы с указанием "класса" документов и их количества;
  • Реальные "выборки" документов каждого определенного Вами класса в виде пачек, папок, рулонов, книг и т. д,

Оборудование подсистемы узкоформатного сканирования

Теперь перейдем непосредственно к выбору оборудования. Начнем с узкоформатного сканирования. Конечно, если речь идет о тысячах, сотнях тысяч или даже миллионах листов, применение обычного планшетного сканера невозможно. Думаю, Вы не можете не согласиться с этим, посмотрев на планируемые сроки сканирования. Проблема решается при помощи специальных документных и промышленных сканеров.

Существует достаточное число производителей подобных аппаратов, например, BancTec, Bell&Howell, Fujitsu и другие.

Все устройства делятся по максимальному формату сканируемого документа — A3 или A4, формату получаемого файла (в основном, это TIFF одностраничный и многостраничный). Сканеры классифицируются по признаку "цветности": цветные (16, 24, 36 bit), GrayScale (256 градаций серого, как на хорошей черно — белой фотографии) или монохромные. Возможности по "цвету" прямо пропорциональны стоимости сканирующих устройств. С другой стороны, цветной сканер может "выдавать" и монохромные и "серые" изображения. Причем иногда экономически оказывается выгоднее использовать цветной сканер для получения черно-белых изображений, если, например, Ваши документы лучше сканируются именно таким устройством.

Для сканирования двусторонних документов можно конечно использовать и односторонний сканер, но тогда время работ увеличится в 2 раза. В связи с этим, все устройства делятся по возможности сканирования одновременно двух сторон документа за один проход. В этом случае, как правило, лист протягивается между двумя сканирующим камерами, каждая из которых производит сканирование "своей" стороны.

Как правило, все устройства имеют минимум 2 режима подачи документов — автоматический и ручной. В автоматическом режиме на приемный лоток сканера кладется пачка документов, осуществляется автоматическая протяжка всех листов. В ручном режиме документы подаются по 1 листу. Все промышленные и документные сканеры делятся по производительности. Например, "младшая" модель ряда Fujitsu позволяет сканировать со скоростью ~ 15 листов/минуту, а самая "старшая" — до 90 листов/минуту в режиме одностороннего сканирования или до 180 страниц/минуту в режиме двустороннего сканирования. Каждая модель, как правило, имеет конструктивные особенности и дополнительные решения, позволяющие влиять на качество сканирования разных групп документов.

Итак, посмотрев на планируемые сроки, изучив рынок оборудования, Вы приобретаете нужную модель... Постойте! В этом месте следует предостеречь Вас от такого решения! Дело в том, что регламентируемая производительность 180 страниц/минуту, совсем не означает, что за смену в 8 часов, вы отсканируете (8 часов — 1 час обеденного перерыва — 1 час на "технологические" перерывы) * 60 минут * 180 = 64800 страниц! К сожалению, все не так просто.

Грамотный производитель оборудования, как правило, кроме параметра "скорость сканирования", указывает параметр "число сканируемых страниц (листов) в смену". Например, для сканера такого класса, как в вышеприведенном примере, число сканируемых в смену страниц, регламентируемое самим производителем, может быть меньше раза в два. Конечно, если Ваш поставщик владеет вопросом, то он сам скажет об этом, а если не владеет, то лучше, чтобы Вы сказали ему об этом сами. Еще лучше, в последнем случае, найти другого поставщика, т. к. велика вероятность возникновения проблем с внедрением и обслуживанием им техники при таком "глубоком" владении вопросом.

Предположим что все-таки выбранная Вами модель поставляется грамотным продавцом, имеющим самые положительные отзывы о внедрении, гарантийном и сервисном обслуживании. Причем по своим техническим характеристикам полностью отвечает Вашим требованиям и "по карману" предприятию. Пора её приобретать? Опять же не стоит торопиться! Сначала возьмите пачки — выборки документов из Вашего "бумажного" архива и попробуйте отсканировать каждый "класс". Если результаты сканирования всех пачек дополнят весь список положительных отличий модели — Вам повезло! Чаще бывает немного по—другому.

Приведу один пример. Сканеры определенного модельного ряда прекрасно сканируют "подавляющее" большинство документов, а вот при внедрении оборудования на одном из предприятий возникли большие проблемы с качеством сканирования калек советского производства. Причем надо отдать должное, сканер показал отличные результаты по возможности протяжки бумаги гораздо меньшей плотности, чем регламентировано производителем.

Но производитель не мог предусмотреть того, что наши кальки при протяжке трутся о тракт сканера, электризуются и через некоторое время прилипают к нему, мнутся и рвутся. Это совсем не значит, что сканер плох. Просто его создатели никогда не работали с советской калькой и не предусмотрели дополнительных для неё способов снятия статического заряда. К тому же, модель имеет "изогнутый" тракт, позволяющий отлично протягивать листы, но если, не дай Бог, попадается порванный лист, то он будет испорчен окончательно. Когда для этих же целей предложили использовать другой сканер, имеющий прямой тракт, предприятие не устроила "цена вопроса" (стоимость выше ~ в 4 раза).

Следующие попытки решения вопроса привели к установке нового сканера, имеющего более "нежный" по отношению к ветхим документам тракт и необходимую систему снятия статического заряда. Решение было признано оптимальным, несмотря даже на отсутствии возможности сканирования еще более ветхих документов (это решили при помощи другого оборудования). А вот производительность несколько снизилась.

Теперь подробнее остановимся на имеющихся способах "борьбы" с неконтрастными изображениями. Конечно, каждый сканер может быть настроен на соответствующий материал, контраст изображения и яркость. Когда фон равномерный, вполне вероятно, что Вам удастся задать такие настройки, что изображение будет достаточно четко просматриваться. Если фоном является цветная бумага или, наоборот, бумага белая, а полезная информация цветная, то возможен подбор соответствующих светофильтров для сканирующей камеры. Если потенциальный поставщик сканера сможет решить проблему сканирования такими способами, и в Вашем присутствии на удивление и радость будут получены изображения "самой неконтрастной" пачки документов, то честь ему и хвала! Думаю, с таким поставщиком стоит работать и продолжать общаться на тему подбора широкоформатного оборудования и оборудования для сканирования сшитых документов!

Довольно часто бывает, что вышеперечисленные способы оказываются недостаточно эффективными. Для "борьбы" с неконтрастными изображениями существуют сканеры, имеющие дополнительные аппаратные модули динамического контраста. Устройства работают по разным алгоритмам, например, по следующему: представьте, Вам необходимо получить изображение крайне неконтрастного листа, которое еле — еле проглядывается сквозь слой "грязного фона". Причем фон совершенно неравномерный по всей площади листа, поэтому никакие настройки яркости и контраста, применение светофильтров не помогут. В некоторых местах фон интенсивен настолько, что изображение еле видно, в некоторых — чуть лучше. Типичным примером такого листа является "синька" советских времен. А теперь представьте, что вся поверхность неконтрастного листа разбита на квадраты, причем их число очень велико и может регулироваться. Поскольку все-таки какое-то изображение на листе присутствует, его часть присутствует внутри каждого квадрата. Система динамического контраста улавливает малейшие отличия фона от "полезной" информации внутри каждого такого квадрата и просто "обрезает" этот самый фон. При этом может усиливаться "интенсивность" полезной части изображения (все определяется настройками). Поскольку подобная операция производится "внутри" каждого квадрата, неравномерное распределение фона по площади листа особого значения не имеет. В конце концов, вы получаете электронное изображение гораздо лучшее по качеству самого бумажного подлинника!

Конечно, существуют "особо тяжелые" случаи, когда идеального изображения невозможно получить. Существуют способы решения: дальнейшая программная обработка после сканирования, применение программных пакетов, производящих обработку прямо в процессе сканирования (описывается ниже), или остается смириться с тем, что лучшего качества получить невозможно.

Если основная "информационная" составляющая документа наблюдается, то можно получить "удобоваримое" качество в процессе дальнейшей обработки. Если же часть информации просто отсутствует, то, возможно, вообще нет смысла сканировать такие материалы. Однако, если они нужны в электронном виде, то их лучше создать заново. Можно провести "процесс реставрации" бумажного носителя перед сканированием или, наконец, "дорисовывать" "недостающие части" уже на электронном изображении. Хотя, как правило, при грамотном подходе процент таких изображений достаточно небольшой.

Как "бороться" с "бликующими" материалами? При их поточном сканировании в местах появления "бликов" образуется засветка, которая выглядит на изображениях в виде пятен. Несмотря на отличную от рассмотренных выше неконтрастных изображений природу "бликов", способы "борьбы" с ними очень похожи. Например, возможно использование поляризационных фильтров на объективах сканирующих камер. Это далеко не всегда является эффективным. Фильтр гасит "равномерные" блики, а мятые кальки, как правило, отражают свет в различных направлениях и по случайному закону. Поэтому используются опять же модули динамического контраста, обработка программным обеспечением в процессе сканирования и после его завершения (об этом ниже).

Предположим, Вы выбрали оптимальное оборудование для поточного сканирования узкоформатных расшитых документов. Пока не спешите ставить точку и приобретать его. Ведь в ваших пачках — "выборках" из архива существуют очень ветхие документы и сшитые папки и книги. Для сканирования таких материалов существует несколько подходов. Сначала, давайте определимся, что проще и целесообразнее в Вашем случае — расшить скрепленные листы и отсканировать их на выбранном оборудовании для поточного сканирования или все-таки искать другой путь. Если сшитых документов сравнительно немного, то проще бывает их расшить и отсканировать на поточном сканере. При этом тестовое сканирование лучше, конечно, начинать с модели, которую Вы уже выбрали для сканирования расшитых узкоформатных документов и использовать все способы "борьбы" за качество изображений, перечисленные выше.

А что делать, если "подавляющее" большинство Ваших документов сшито в книги и папки, и расшивать их трудоемко? В этом случае Вам не обойтись без специального оборудования — планетарного (бесконтактного, книжного) сканера. Особенностями данных сканеров является отсутствие механического контакта со сканируемыми материалами. Сканирующая камера расположена над столом, на котором располагаются сшитые документы. Время сканирования разворота 3-5 секунд. Получаемый формат файла в зависимости от конкретной модели — *.TIFF монохромный и Gray scale, цветной 16, 24, 32 bit. Сканер и программное обеспечение управления имеют опции, необходимые для работы со сшитыми документами — корректировку изгиба страниц и ряд дополнительных функций, позволяющих наиболее удобно поставить технологию сканирования, например, работать с баркодами. Также можно, например, установить 2 фрейма (области), соответствующие левой и правой странице разворота. Сканирование всего разворота может производиться "за один проход", а ПО само "вырежет" из разворота 2 страницы и сохранит их в разных файлах. При наличии толстых книг и пачек сшитой документации целесообразно применять специальные дополнительные подставки. Подставка приобретает форму обложки книги таким образом, что оба листа сканируемого разворота находятся в одной плоскости. Оператор перелистывает страницы вручную. Запуск процесса сканирования может осуществляться при помощи педали, пульта управления сканером или прямо из ПО. Данные сканеры могут успешно применяться как для сканирования отдельных узкоформатных листов, имеющих ветхое состояние, так и документов сшитых в папки и книг документов.

Когда целесообразно применять такое оборудование? На этот вопрос, думаю, Вы уже готовы ответить. Поскольку имеете результаты описанного выше обследования своего архива. Если "сшитых" документов много, а процесс "расшития" невозможен, то Вам, конечно, нужен бесконтактный сканер. Тем более при его помощи возможно сканирование и ветхих отдельных листов, которые могут быть испорчены "протяжным" сканером.

Принципы выбора конкретной модели мало чем отличаются от принципов выбора "протяжных" сканеров. В процессе выбора обязательно необходимо производить тестовое сканирование, поскольку технические характеристики и конструктивные решения не могут учесть всей специфики документов. Например, при внедрении оборудования бесконтактного сканирования на одном из предприятий, пришлось столкнуться с тем, что тестовое сканирование "прошли" не все виды документов. По этой причине пришлось решать проблему с "бликами" материала. Изображения "не прошедших" тестовое сканирование "выборок" из бумажного архива как раз и были неудовлетворительными. Проблема сканирования неконтрастных документов решается теми же путями, что и в "протяжных" устройствах. При сканировании же бликующих материалов, в отличие от "протяжного" сканирования, качество оставляет желать лучшего. "Бликующую" поверхность материала можно сравнить со множеством зеркал, имеющих разное направление отражения света. В "поточном" сканере бликующий материал все-таки прижимается роликами и механизмом протяжки, иногда его участки сами начинают отражать свет в одном направлении. Осветители в бесконтактном сканере расположены близко к поверхности сканирования. Бликов гораздо меньше. В бесконтактных же сканерах роликов, "подтягивающих" блестящий материал (и приводящих множество "зеркал" в одну плоскость), просто нет. Мятый ветхий материал отражает в самых различных направлениях, создавая большие пятна засветки на изображении. Если бесконтактный сканер не имеет возможности "установки" света, перемещения осветителей, то никакие поляризационные фильтры и специальные функции ПО могут не спасти. Так и получилось при внедрении одной из моделей, имеющей жестко закрепленные осветители. Модель прекрасно сканирует любые сшитые документы, кроме "бликующих". Пришлось создавать внешние дополнительные источники света и прибегать к различным другим ухищрениям.

Приобретение бесконтактного сканера может оказаться экономически не выгодным, если, например, существует возможность расшить папки и книги и число ветхих документов невелико. Существует достаточно простое решение — обычный планшетный сканер. Недостатком же такого решения является необходимость как — то извлекать такие документы из пачек, далее необходимо как-то "вставлять" отсканированные на планшете страницы с нужным номером в массив файлов, полученных при поточном сканировании. Или, еще хуже, "вставлять" отсканированный на планшете лист с нужным номером в многостраничный файл, полученный при "поточном" сканировании пачки.

К счастью, выход из описанной ситуации существует. Некоторые поточные сканеры имеют дополнительный планшет. Работа с устройством производится как с обычным документным "поточным" сканером. При появлении в пачке ветхого листа, оператор нажатием кнопки осуществляет перевод сканера с "поточного" способа подачи на обычный планшет. Далее на планшете сканируется ветхий лист. После чего нажатием кнопки осуществляется переход в режим "скоростного" ("поточного") сканирования и производится сканирование, скажем, со скоростью 68 листов или 136 страниц/минуту. Важным является тот факт, что при переходе с одного способа подачи на другой и обратно, нумерация файлов не нарушается, не зависит от способа подачи и числа таких "переходов". Более того, все сказанное "распространяется" на сохранение нумерации листов "внутри" многостраничного файла (независимо от способа подачи).

Только после проведения всех вышеописанных действий, включающих обязательное тестовое сканирование, стоит приобретать оборудование тех или иных моделей.

Оборудование подсистемы широкоформатного сканирования

Повторю следующее утверждение: ввиду особенностей бумажных носителей, для широкоформатных (форматов больших А3) листов, даже при современном развитии техники невозможно достичь скорости сканирования, скажем 100 листов формата А0/минуту. Сканеры для широкоформатных документов отличаются от оборудования для узкоформатного сканирования. Хотя, сами принципы сканирования и обработки изображений очень близки.

Все сказанное выше об узкоформатных сканерах распространяется и на широкоформатные. Имеется достаточное количество производителей оборудования. Все сканеры, будем говорить откровенно, имеют как преимущества, так и недостатки. Перечисление их не входит в рамки статьи. К тому же может оказаться так, что для Ваших документов "недостатки" одной модели будут скорее "преимуществами". Устройства также классифицируются по максимальному формату, как правило, А1 или А0, скорости сканирования (самые "быстрые" — до 15 метров формата А0/минуту). Существует классификация по признаку "цветности": Мonochrome, GrayScale, RGB, 16, 24, 32 bit. Устройства имеют встроенные аппаратные модули для повышения качества изображений и специальные функции в ПО управления сканированием, предназначенные для этого.

Способы "борьбы" с ветхими, бликующими и неконтрастными документами аналогичны тем, что применяются и при узкоформатном сканировании. Хотя имеются некоторые отличия. Например, ветхий документ может быть отсканирован на широкоформатном сканере в "защищенном" от механических соприкосновений виде. Говоря проще, существуют специальные пластиковые пакеты, в которые и помещаются ветхие документы перед сканированием.

Принципы выбора широкоформатного сканера ничем не отличаются от принципов выбора узкоформатного и учитывают результаты обследования Вашего архива, которые, напомню, должны включать:

  • Планируемые сроки сканирования документов, производительность подсистемы сканирования;
  • Необходимость дальнейшего пополнения архива вновь отсканированными документами;
  • Окончательное решение о формате электронного изображения;
  • Классификация документов по форматам, ветхости, состоянию, "сброшюрованности" и всем выявленным Вами при обследовании дополнительным признакам. Эту классификацию лучше всего составить в виде таблицы с указанием "класса" документов и их количества;
  • Реальные "выборки" документов каждого определенного Вами класса в виде пачек, папок, рулонов, книг и т. д.

Методика и способы обследования подробно описывались выше.

Имея результаты обследования, Вы выбираете то или иное оборудование. При этом обязательно производите тестовое сканирование ваших "выборок" всех групп широкоформатных документов (напомню, чем больше этих самых групп, тем лучше). После чего обязательно решаете вопросы внедрения, обучения, гарантийного и послегарантийного обслуживания с поставщиком и останавливаетесь на той или иной модели. То есть реализуете ту же логику действий, что и при выборе оборудования для узкоформатного сканирования.

В заключение темы выбора оборудования подсистемы сканирования хочется сказать, что развитие техники и технологий не стоит на месте и некоторые вещи, особенно касающиеся классификации оборудования, не следует воспринимать как догму. Например, бесконтактные сканеры отнесены к узкоформатным, хотя сравнительно недавно появились устройства для бесконтактного сканирования форматов до A0, имеющие достаточно высокие характеристики, регламентируемые производителем. По опыту скажу, что часть заявлений о "непревзойденном качестве" является чисто "рекламным трюком", который помогает производителю протестировать и доработать новое оборудование. Опять же, не стоит считать таким "трюком" все такие заявления. Просто стоит взять "выборки" из своего бумажного архива, провести тестовое сканирование и сделать вывод о том, насколько подходит оборудование именно для решения Ваших задач.

Разработка технологии работ по сканированию

Если вернуться к определению системы электронного архива, можно увидеть упоминание о неких технологических аспектах. Даже звучало утверждение, что без этих аспектов программно-аппаратный комплекс может превратиться в "набор железа и софта". Вернемся к примеру, описывающему создание подсистемы узкоформатного сканирования на одном из предприятий. После подбора конкретной модели оборудования из нескольких имеющихся вариантов, предприятие "остановилось" на той модели, которая, с одной стороны, позволяет добиться наивысшего качества электронных изображений, а с другой — имеет одну особенность. Она состоит в том, что документы советского периода формата "чуть большего" (буквально на пару миллиметров), чем A3, не проходят в тракт сканера. Попытки же найти оборудование, одновременно удовлетворяющее по качеству, производительности и по "нестандартным" форматам оказались безуспешными. Поэтому пришлось создавать технологию, включающую подготовку документов к сканированию — просто обрезать пачку документов на пару миллиметров при помощи большого резака.

В процессе работы с подсистемой сканирования могут возникать еще "менее существенные", казалось бы, сложности. Но все они, как правило, ведут к снижению производительности процесса перевода документов в электронный вид. Иногда даже влияет расположение помещений, конфигурация сети и прочие "мелочи", без учета которых достичь требуемой производительности невозможно. Поэтому учитывать необходимо все, и не просто приобрести оборудование, а еще и создать технологию проведения работ по сканированию.

Обработка сканированных документов

К сожалению, далеко не всегда при сканировании документов использование аппаратных модулей сканирующего оборудования достаточно. Также не всегда достаточным является применение "встроенных" в ПО управления сканерами дополнительных программных модулей обработки и повышения качества изображений. В большинстве случаев для получения качественных изображений таких групп документов приходится использовать дополнительные программные средства обработки.

В настоящее время существует множество таких средств. Спектр велик — от небольших утилит, "обрезающих", например, рамки и "грязь" по краям, до сложных редакторов с полным набором средств, позволяющих, если не получить идеальное изображение из плохого, то отреставрировать ту часть, которая утеряна (естественно, "вручную").

Все средства обработки изображений (имеются в виду не "узкоспециализированные утилиты", а серьезные редакторы), как правило, имеют режимы пакетной обработки. В этом режиме программные средства позволяют указать массив файлов и, например, во всех одновременно "обрезать" рамки и "рваные края", повысить контраст, изменить яркость, "вычистить грязный фон". Конечно, перед запуском пакетной обработки необходимо произвести определенные настройки ПО. Но затраченное время (несколько минут) компенсируется тем, что при пакетной обработке программа "сама" обрабатывает указанный массив без участия оператора.

Как правило, пакетная обработка эффективна для массивов файлов, полученных при сканировании "одинаковых" по "недостаткам" документов. К счастью, в большинстве случаев в "бумажных" архивах они так и хранятся. Ветхость бумаги, её тип и прочие характеристики, влияющие на результаты сканирования, скорее всего, в одной пачке, папке мало чем отличаются. Поэтому качество изображений приблизительно одинаковое "внутри" всего файлового массива. В связи с этим, возможны одинаковые настройки для обработки и, как следствие, пакетная обработка такого массива файлов. Если же качество документов разное "внутри" одной пачки (массива графических файлов), то задача по обработке значительно усложняется. Например, "обрезать" края можно и "пакетно", а вот "вычистить" грязный фон "пакетно" не получится. У одного файла фон может быть более интенсивным, у второго — менее, а у третьего — фона вообще может не быть. Если такой массив обрабатывать "пакетно", то "плохие" изображения может и станут гораздо лучше, а вот "хорошие" могут быть просто "испорчены".

В любом случае, при выборе средств обработки изображений стоит помнить, что, если информация "потеряна", то кроме как "ручной реставрацией" её не восстановить, а в некоторых случаях дешевле создать документ заново.

Какие же средства применять лучше? Даже, если бы я занялся "рекламой и антирекламой", то не смог бы назвать "лучших". Логика выбора такая же, как и при выборе оборудования. Необходимо разбить на группы и подгруппы те файлы, качество которых Вас не удовлетворяет. Вся классификация производится по тем или иным признакам (степень "грязного фона", контраста, яркости, наличие пятен, засветки от бликов, "рванных краев" и т. д.). Далее необходимо пробовать на реальном ПО провести обработку. При выборе средства обязательно учитываются аспекты подготовки, обучения персонала, поддержки программного продукта и технологические аспекты организации процесса обработки.

Разработка технологии работ по обработке сканированных изображений и ввода в систему электронного архива

Как и при сканировании, при обработке изображений необходимо создать технологию работ. Ведь далеко недостаточно иметь массивы файлов, полученных в результате сканирования и средства их обработки. Необходимо как-то сортировать файлы по "качеству", куда-то записывать "отбракованные". Среди последних также возможна классификация, т. к. способы и средства их обработки могут быть совершенно разными. Далее приходится (в зависимости от типа "изъяна") производить те или иные действия над файлом по обработке. После чего производятся проверки результатов. По результатам проверки часть файлов, успешно прошедших обработку, "объединяется" с не отбракованной ранее частью, а часть отправляется "на доработку". И это далеко не полный список действий, без выполнения которых невозможно добиться положительных результатов.

Создание подсистемы хранения документов

Говоря об использовании тех или иных форматов сканированных документов в электронном архиве, очень кратко затрагивался вопрос о способах хранения. Более "продвинутые" читатели могут, конечно, пропустить следующие два абзаца, но все-таки стоит для остальных подробнее остановиться на теоретических аспектах.

В современных СУБД и архивных системах (работающих с этими СУБД) существуют 2 основных способа хранения документов. В первом случае файл записывается непосредственно в ячейку таблицы в бинарном виде. Такая ячейка должна иметь соответствующий формат, например, Image (MSSQL) и т. д. Такой способ хранения файлов можно сравнить с рыболовной сетью, в некоторых ячейках которой застряла рыба. Сеть — таблица СУБД, а рыба — файлы в бинарном виде. Общий вес складывается из "веса" рыбы и самой сети. То есть физический размер таблицы СУБД, а отсюда и требования к аппаратным средствам выше, а быстродействие базы ниже (сеть с рыбой поднять гораздо тяжелее) при такой записи документов. Этот способ хранения файлов хорош при сравнительно "небольшом весе рыбы" — физическом объеме файлов архива. Материал посвящен созданию электронных архивов, объемы хранимой информации в которых, как правило, велики. При вышеописанном способе хранения возникают проблемы с резервным копированием, "местом на дисках", быстродействием базы, требованиями к аппаратным средствам, производительностью и эффективностью системы в целом.

Второй способ хранения документов в системе электронного архива заключается в том, что файлы не записываются в ячейки таблиц СУБД в бинарном виде. При таком способе в ячейку пишется лишь ссылка на файл. Сам же электронный документ находится в той или иной области хранения. Размер самой таблицы при записи в неё информации о файле документа увеличивается мизерно (по сравнению с записью в бинарном виде). Для получения самого документа система архива не "проворачивает всю сеть с рыбой", а обращается к СУБД, "видит" ссылку на файл и, подобно рыбаку с удочкой, вытаскивает "рыбу" на леске (нужный документ по ссылке). Отличие лишь в том, что в случае с СУБД всегда на 100% заранее известно "какая рыба будет вытащена".

Конечно, если все-таки по каким-либо причинам Вы считаете, что целесообразно хранить файлы документов в бинарном виде в ячейках СУБД, я не стану спорить. Хотя такой способ имеет все вышеперечисленные недостатки.

Минимум 2 раздела хранения

Опыт показывает, что общий объем архива может составлять терабайты информации, с одной стороны, но в интенсивном использовании находится 5% — 10%. Доступ к документам оперативного использования наиболее интенсивен, а объем сравнительно невелик. Доступ к оставшейся значительной части (90%-95%) информации нельзя назвать интенсивным. Документ может быть востребован 1 раз/неделю, месяц, год. С другой стороны, невозможно создать идеальное по качеству "хранилище", позволяющее мгновенно "получить" документ, выбранный из терабайтов информации. Такое "идеальное" хранилище должно обеспечить высокую надежность хранения, "быть свободным" от таких "банальностей", как действие магнитных полей, необходимость "зеркалировать диски" и ко всему прочему иметь доступную цену!

В связи с этим, можно выделить минимум 2 раздела хранения:

  • область оперативного хранения — сравнительно небольшой объем и высокая интенсивность доступа;
  • область долгосрочного хранения — большой объем, высочайшие требования к надежности хранения и сравнительно неинтенсивный доступ.

Благодаря такому делению, реализация разделов хранения может быть произведена наиболее эффективно с учетом их специфики и при применении совершенно разных аппаратных средств.

Оперативный архив

Думаю не стоит особенно подробно останавливаться на описании области оперативного хранения. Поскольку организовать её не стоит особых усилий, используя "часть" жесткого диска сервера, специально выделенного для этой цели диска или Raid — массива. Все подобные решения обеспечивают быстрый доступ к оперативной части информации, имеют сравнительно небольшой объем. Объем рассчитывается исходя из реального объема документов, находящихся в оперативном использовании.

Наверно неправильно было бы говорить, что надежность подобных устройств низкая, и они не годятся для организации хранения сверхбольших объемов информации. К тому же существует множество способов повышения надежности, например, создание "зеркальных дисков", перезапись, резервное копирование информации и т. д.

Долгосрочный архив

Для организации долгосрочной области хранения можно, конечно, использовать "привычные" жесткие диски или Raid — массивы. Хотя, когда объем хранимой информации исчисляется терабайтами, это не очень выгодно. Причины в том, что необходимо организовать резервное копирование этих объемов, "зеркалировать" диски и повышать надежность системы прочими способами, принятыми для таких носителей. Как правило, все эти способы связаны с резким увеличением стоимости решения. Приведу простой пример: для создания "зеркальных" дисков объем носителя должен быть в 2 раза больше.

Когда мы говорили о втором разделе хранения — долгосрочном архиве — не зря упоминали не только о высоких требованиях к надежности, но и о достаточно "низких" требованиях, связанных со сравнительно невысокой интенсивностью доступа (возможно документ потребуется 1 раз/неделю, месяц, год). Исходя из этого, наиболее интересными и перспективными устройствами для организации области долгосрочного хранения являются роботизированные DVD — библиотеки.

DVD — технологии получили особенно бурное развитие в последние годы. Что же такое роботизированная библиотека? Представьте себе диск, внешне напоминающий обычный CD, только "объем" его составляет 2,6; 4,7 или, скажем, 9,4 Gb. Конечно, такой объем уже является достаточным преимуществом, по сравнению с обычным CD, к тому же, если Вы используете, например, технологию DVD-RAM, то работа с таким диском по записи и чтению может ничем не отличаться внешне от записи и чтения на обычный жесткий диск. Конечно, скорость доступа ниже. А теперь представьте, что 100, а может и 600 таких дисков размещены в отдельном корпусе. Общий объем такого устройства может достигать до 5,5 терабайт. Остается решить вопрос доступа к информации. Роботизированная DVD-библиотека как раз и представляет собой такой массив дисков, размещенных в отдельном корпусе. Количество носителей может быть разным и зависит от конкретной модели. Как правило, все производители выпускают модельные ряды, каждое из устройств которых может "вмещать" 100 — 600 DVD — носителей. Для защиты дисков от повреждений внутри корпуса каждый носитель находится в специальном пластиковом конверте, исключающем механические прикосновения к поверхности.

Внутри корпуса роботизированной библиотеки кроме самих носителей расположены приводы, обеспечивающие запись и считывание информации. Число приводов может быть различным в зависимости от конкретной модели. Их может быть от 1 до14. Причем стоит отметить модульность этих библиотек. Дело в том, что для работы необходим минимум один привод, но в дальнейшем, при увеличении требований к производительности, число приводов может быть увеличено (до максимально возможного для данной модели). Роботизированная библиотека представляет SCSI — устройство, подключаемое к серверу или отдельному компьютеру. На управляющем компьютере устанавливается специализированное ПО, позволяющее представить всю роботизированную библиотеку одним логическим ресурсом. Говоря проще, открыв вкладку "Мой компьютер", Вы видите диск Z: "размером" терабайт в пять!

Поскольку мы говорим о сетевом использовании такого хранилища, то доступ к данному "диску" сервера определяется средствами администрирования операционной системы. Процесс определения прав доступа ничем не отличается от "такого же" набора действий, который применялся бы, например, к отдельному диску сервера. Кроме того, ПО управления отвечает за организацию доступа по записи и чтению информации. Если, например, Вы используете технологию DVD-RAM, то процесс записи и считывания при работе с этим самым "диском Z:" ничем не отличается внешне от такого же процесса с диском C:.

В корпусе библиотеки, кроме носителей и приводов, расположен сам механизм робота. При обращении к файлу робот извлекает диск из слота, где он хранится, и вставляет в первый свободный привод, далее производится работа с носителем по чтению или записи. Как правило, диск внутри корпуса перемещается вместе с пластиковым конвертом и вместе с конвертом он вставляется в привод. Это позволяет защитить поверхность от загрязнения и механических повреждений.

Вполне может возникнуть вопрос: "А что будет, если все 14 приводов заняты?". Дело в том, что важной функцией ПО управления роботизированной библиотекой является кэширование информации. При инсталляции ПО указывается размер кэша и его "размещение" на жестких дисках сервера (управляющего компьютера). Все файлы, к которым обращались ранее, размещаются в кэше. Если, например, размер кэша 60 Mb, он "заполнен до отказа", но идет обращение к файлу, который не "прокэширован", ПО управления "стирает" из кэша файл, дата и время обращения к которому самые ранние и помещает туда файл, считанный с носителя. Если же и файла нет в кэше, и кэш заполнен, и приводы все заняты, то система просто ставит запрос в очередь, и пользователь ждет, когда закончится работа с файлами в одном из приводов. Время такого ожидания непредсказуемо, но, как правило, при достаточно редком доступе к файлу можно и подождать единицы — десятки секунд. Если же такое ожидание неприемлемо, то, скорее всего, стоит либо увеличить размер кэша, либо пересмотреть принципы размещения информации в оперативном архиве. Возможно в оперативную область хранения не была включена информация, обращения к которой достаточно интенсивно (такие обращения и "занимают" приводы).

Кроме перечисленных свойств роботизированных библиотек, следует отметить еще одно. Дело в том, что в любом архиве всегда можно найти информацию, обращение к которой крайне редкое (скажем, реже 1 раза/год). Тратить средства на приобретение "старшей" модели, рассчитанной на хранение носителей и с такой информацией, не всегда целесообразно. Поэтому роботизированные библиотеки имеют возможность подключения дополнительных дисков, хранящихся вне корпуса. Такое подключение может производиться по одному диску (через специальный Mail-Slot) или при помощи специальных магазинов. У разных производителей существуют магазины на 10 — 15 дисков, которые хранятся вне корпуса роботизированной библиотеки. При необходимости Вы можете "взять с полки" магазин с редко используемой информацией и вставить его в специальный слот. Причем, выключать или перезагружать систему не нужно, она сама "поймет", что появилась новая информация.

Как используется роботизированная библиотека в электронном архиве? Напомню, что, говоря о "четырех ступенях эволюции", мы говорили о создании файловых массивов. Действительно, ПО управления роботизированной библиотекой и средства администрирования операционной системы управляющего компьютера позволяют организовать сетевой доступ как к файл — серверу. Это первый способ использования устройств. Существует и второй, применяемый в "более современных" решениях — обращение к файлам через вышестоящие приложения, например, ПО архива.

Вспомним краткий экскурс в принципы записи в СУБД информации о файле в виде ссылки. При использовании такого подхода файлы документов могут храниться на DVD — носителях внутри корпуса роботизированной библиотеки. Таблицы же СУБД (с которой работает ПО архива) имеют ссылки на них. Пользователь находит необходимый документ при помощи программной надстройки — ПО архива. После этого инициализируется ссылка. Скажем, при нажатии кнопки "Открыть документ" ПО архива обращается через ссылку, хранящуюся в ячейке СУБД, непосредственно к файлу, который хранится в роботизированной библиотеке, и открывает его средством просмотра.

В заключение темы стоит описать основные принципы организации подсистемы долгосрочного хранения. Для выбора того или иного устройства необходимо ответить на следующие вопросы:

  • Максимальный объем долгосрочного хранения;
  • Объем информации, обращения к которой крайне редки;
  • Производительность системы;
  • Режимы использования (только чтение, чтение и запись, организации записи и чтения через сеть).

Только после ответов на эти вопросы можно говорить о принципе организации, самом "хранилище" — роботизированная библиотека, Raid — массив, магнитооптическая библиотека и т. д. Также только после уточнения этих вопросов можно говорить о приемлемой для выбранного "хранилища" технологии, например, DVD-R, DVD-RAM и т. д.

Подсистема тиражирования

В архиве предприятия, как правило, возникает необходимость распечатать документ или чертеж. Причем объемы тиражирования могут быть достаточно велики. Например, в "пиковые" дни реализации одного крупного проекта силами нескольких предприятий, предприятие — разработчик тиражировало до 3 (трех!) километров в день чертежей формата А0. Конечно, такой пример не характерен для всех предприятий, но, тем не менее, создание подсистемы тиражирования документов, хранящихся в электронном архиве достаточно актуально.

Думаю не стоит подробно описывать механизм взаимодействия подсистемы тиражирования с другими подсистемами электронного архива. Он достаточно прост: документ "находится" средствами ПО электронного архива, открывается для просмотра (либо встроенными средствами ПО электронного архива, либо другим ПО, вызываемым через API, например, при нажатии кнопки "открыть документ" в интерфейсе клиентского места ПО электронного архива). После вывода на экран данного документа, он посылается на печать.

Деление на тиражирование узкоформатной и широкоформатной документации

Как и при организации подсистемы сканирования, существует специфика, определяющая деление документов на узкоформатные и широкоформатные. Это связано с тем, что для печати форматов больших А3 существуют определенные тонкости, связанные с материалом, способами его подачи и т. д. Поэтому принципы действия устройств несколько отличаются. В связи с этим, существуют устройства для узкоформатной (до А3 включительно) и широкоформатной печати.

Перед созданием подсистемы тиражирования опять же необходима правильная постановка задачи:

  • Сколько и каких документов требуется распечатывать в среднем за определенный промежуток времени;
  • Какие требования выдвигаются к качеству печати. Только после этого стоит приступать к изучению рынка самих устройств (плоттеров и принтеров).

Создание системы тиражирования узкоформатной документации

Для тиражирования узкоформатной документации используются принтеры формата А3 и А4. В рамки материала не входит подробное описание всех существующих устройств.

При выборе того или иного устройства должны выполняться требования по производительности и качеству печати. Если Вы собираетесь приобретать довольно дорогостоящее оборудование, обязательно стоит распечатать результаты Вашего тестового сканирования.

При создании подсистемы тиражирования и определении затрат важно не забыть о стоимости расходных материалов: бумаги, картриджей, тонера и их реальном расходе при тиражировании определенного объема документов. Вполне может оказаться, что выбранная модель будет удовлетворять Вас по качеству печати и объемам тиражирования при "работе" с бумагой только определенного типа или дорогостоящий тонер расходуется столь быстро, что, например, за один год эксплуатации, стоимость оборудования "возрастает" в несколько раз! В этом случае целесообразно рассмотреть другую, пусть более дорогую модель, стоимость эксплуатации которой (включая расходные материалы) может оказаться ниже, чем стоимость эксплуатации "менее дорогой" модели.

При необходимости постоянного тиражирования стоит соблюдать принцип резервирования. В таких случаях целесообразно использование нескольких устройств, имеющих необходимую для Вас суммарную производительность. В случае выхода из строя одного из них, суммарная производительность подсистемы тиражирования несколько упадет, но подсистема не "остановится".

Создание системы тиражирования широкоформатной документации

Для тиражирования широкоформатной документации применяются лазерные и струйные плоттеры. Опять же не будем подробно перечислять все модели, их преимущества и недостатки. Как и при выборе оборудования для организации подсистемы узкоформатного тиражирования, следует учитывать:

  • Требования к производительности;
  • Требования к качеству печати;
  • Результаты "тестовой" печати Ваших документов (например, полученных при тестовом сканировании);
  • Стоимость эксплуатации оборудования (например, за один год) с учетом стоимости расходных материалов (картриджей, тонера, бумаги и т. д.);
  • Принцип резервирования.

Как утверждалось выше, деление оборудования и ПО "внутри" системы электронного архива по "принадлежности" к той или иной подсистеме достаточно условно. Одна из функций оборудования или ПО может "относиться" к одной подсистеме, другая — к другой. Например, для организации подсистемы тиражирования широкоформатной документации на крупных предприятиях используются инженерные комплексы. В состав комплекса входит плоттер высокой производительности (например, до 15 метров/минуту по формату А0). Кроме плоттера в состав такого комплекса входит сканер (такой же производительности). Сканер "относится" к подсистеме сканирования. К тому же устройство можно использовать как цифровой копировальный аппарат (материал в этом случае сканируется не "в файл", а сразу подается на плоттер).

Создание подсистемы пользовательских приложений

Ниже рассматривается подсистема пользовательских приложений для последнего — четвертого способа как наиболее полного. Если Вы не собираетесь автоматизировать процесс разработки новых документов, находящихся в архиве, то необходимо просто исключить те или иные пункты.

Состав подсистемы. Средства разработки документов

Средства разработки документов включают в себя приложения, в которых разрабатываются документы электронного архива. Система электронного архива, во-первых, содержит не только документы, полученные путем сканирования бумажных носителей, но и документы, которые сразу разрабатываются в электронном виде.

Во-вторых, если Вы идете четвертым способом создания электронного архива, то средства разработки документов необходимы для создания новых документов на основе зарегистрированных ранее.

В третьих, чтобы не создавать громоздких систем, имеющих средства просмотра всех типов документов, проще, например, для просмотра документа *.doc вызвать MS Word через соответствующую опцию ПО управления архивом, например, нажав кнопку "открыть документ" в интерфейсе "архивной" системы. MS Word одновременно является и средством разработки. Хотя ПО архива позволяет установить доступ для пользователей в режиме просмотра (для разделов информации, где изменения недопустимы), тогда все изменения, вносимые средством разработки, просто не будут сохранены.

Ваша система должна "уметь взаимодействовать" со всеми средствами работы с документами, которые Вы используете. Кроме того, необходимо учитывать перспективы дальнейшей автоматизации предприятия и необходимость взаимодействия с теми средствами разработки, которые планируется внедрять. Когда речь идет о ПО управления архивом, вызывающим для просмотра документа соответствующее средство, казалось, вопроса о взаимодействии с тем или иным приложением не должно возникать. На самом деле, когда Вы записываете в архив файл *.doc или *.tif, это так. После "записи в архив" при помощи запросов находятся те или иные документы и при нажатии кнопки "открыть документ" (инициализации ссылки) документ открывается тем же MS Word или же средством просмотра файлов формата *.tif. В случае же использования "единиц хранения", состоящих из нескольких файлов, имеющих связи, если Ваша система архива при регистрации документа все эти связи не отразит, а возможно и не перезапишет, то такой документ вряд ли будет открыт. Это касается, например, трехмерных моделей. Для этого и необходим учет возможности работы Вашего электронного архива с такими документами, наличия интерфейсов с такими программными средствами.

Средства обработки сканированных изображений

Часть средств обработки изображений, о которых говорилось при описании подсистемы сканирования, также можно отнести к уровню пользовательских приложений со следующей оговоркой: все зависит от пути создания архива. Например, если Вы создаете файловый массив или систему архива, не дающую возможность разрабатывать новые документы на основе ранее зарегистрированных "внутри одной системы", средства обработки изображений полностью принадлежат подсистеме сканирования.

Если же создаваемая Вами система должна "позволять" разрабатывать новые документы на основе хранящихся, то все обстоит немного иначе. В этом случае, напомню, может быть создана новая версия документа (она представляет собой его полную копию). При создании новой версии, ПО архива автоматически "помещает" её в область оперативного хранения. Новая версия может быть открыта не только в режиме просмотра, но и в режиме редактирования (старую версию ПО архива редактировать не позволит!). В созданную версию вносятся изменения, производятся необходимые проверки, утверждения, маршрутизация. После чего версия может быть сразу перенесена в область долгосрочного хранения или, например, включена во вновь разрабатываемый проект.

А теперь представьте, что Вам нужно создать новую версию отсканированного документа, например, чертежа или приказа. Необходимо внести незначительные изменения и использовать документ, при этом, конечно, он должен быть зарегистрирован в архиве. Как раз в этом случае, после создания новой версии отсканированного документа, она открывается в режиме редактирования растровым или гибридным редактором, тем же самым, который Вы используете при обработке сканированных изображений в подсистеме сканирования. Над документом производятся все необходимые процедуры по проверке, маршрутизации и т. д.(эти процедуры проводятся, конечно, не средством редактирования, а ПО управления архивом), после чего документ регистрируется в долгосрочном разделе хранения. Далее при помощи ПО управления архивом он может быть найден, открыт только для чтения (либо встроенным средством просмотра "архивного" ПО, либо внешним приложением). При необходимости создать на основе этого документа новый, все процедуры повторяются: создается версия, автоматически размещаемая в разделе оперативного хранения, она открывается средством редактирования, производятся изменения "внутри" документа и все действия над ним (проверки и т. д.), после чего документ автоматически регистрируется в области долгосрочного хранения...

Средства управления аппаратной частью комплекса (оборудованием хранения, сканирования, тиражирования)

Как утверждалось выше, четкую границу между "принадлежностью" ПО и аппаратных средств и подсистемами электронного архива "в общем" провести нельзя. Она, конечно, существует, но для каждого конкретного случая есть своя специфика. Некоторые программные и аппаратные средства могут "входить" в несколько подсистем. Например, инженерный комплекс, который способен сканировать, печатать документы широких форматов или просто "выступать" в роли цифрового копировального аппарата может "принадлежать" одновременно подсистеме сканирования и тиражирования. Программа — гибридный растровый редактор может "входить" в подсистему сканирования как средство обработки изображений и в подсистему пользовательских приложений как средство редактирования версий (если Вы создаете архив четвертым способом).

Исходя из конкретной специфики стоящих перед Вами задач, часть средств управления аппаратной частью комплекса также может в некоторых случаях "принадлежать" не только подсистеме, в которую входит само аппаратное средство, но и подсистеме пользовательских приложений.

Например, некоторые программные средства управления роботизированными библиотеками не требуют использования "клиентских" частей, а представляют весь массив из сотен DVD — носителей одним "большим сетевым диском". На этом диске и хранятся все Ваши документы долгосрочного архива, которые "находятся" средствами СУБД, запросы к которой формируются через пользовательский интерфейс ПО управления архивом. Права доступа к этому ресурсу определяются лишь средствами операционной системы сервера, управляющего библиотекой.

Некоторые же программные продукты, управляющие хранилищами сверхбольших объемов, требуют использования "клиентских частей" для подключения к ресурсу. В этом случае, "клиентские части" устанавливаются на рабочие станции системы архива. Такие программные продукты можно "отнести" не только к подсистеме долгосрочного хранения, но и к подсистеме пользовательских приложений.

Средства защиты информации

Поскольку система электронного архива состоит из нескольких подсистем, то доступ к разделам информации определяется соответствующими средствами подсистем. Например, доступ к оперативной и долгосрочной областям хранения — средствами администрирования операционной системы сервера, доступ к тем или иным разделам базы — средствами администрирования СУБД. Подробное рассмотрение этих вопросов не входит в рамки статьи.

Средства администрирования системы архива и документооборота

ПО управления электронным архивом имеет свои "встроенные" средства администрирования, напоминающие по функциям средства администрирования операционной системы или СУБД: создаются пользователи, группы, определяются права доступа к разделам. Данные средства, как правило, "стоят над" средствами администрирования операционной системы и СУБД. Например, средства СУБД "разрешают" пользователю "Ivanov" группы "Users" иметь полный доступ к какой-нибудь таблице, а средства ПО управления архивом "ограничивают" доступ пользователя "Иванов" группы "Пользователи" только теми записями той же самой таблицы, "описывающей" документы, где в поле "USERS" встречаются значения "Иванов" или в поле "GROUPS" встречаются значения "Пользователи".

Говоря проще, перед открытием интерфейса "клиентского места" ПО управления архивом, Иванов вводит свои имя и пароль на подключение к СУБД. Эта процедура может быть исключена, т. к. некоторые СУБД идентификацию производят по сетевому имени и паролю пользователя, которые он уже ввел при входе в сеть. Далее Иванов вводит свои имя и пароль для системы управления электронным архивом. Эта процедура не исключается, т. к. эти имя пользователя и пароль пользователя системы электронного архива в большинстве случаев никак не связаны со средствами администрирования операционной системы сервера и средствами администрирования СУБД.

Электронная подпись

В связи с принятием Федерального Закона об Электронно-цифровой подписи (далее "Закона об ЭЦП"), наконец, появилась некая регламентация понятия электронной подписи. Хотя (это достаточно субъективное мнение) автору не приходилось до сих пор видеть восторженного пользователя, проникшегося содержанием Закона об ЭЦП, причем говорящего о том, что он внедрил систему ЭЦП, четко соответствующую Закону. Описание всех положений Закона об ЭЦП не входит в рамки статьи, хотя некоторые основные моменты могут применяться и уже применяются в системах электронных архивов.

Встроенная в систему архива и документооборота система электронной подписи

Современные программные продукты — системы управления архивом и документооборотом, как правило, имеют механизм встроенной электронной подписи. Существует несколько способов "подписи" документов, хранящихся в электронном архиве. Самый простой выглядит так: пользователь, "налагающий подпись", запускает соответствующую опцию (нажимает кнопку "подписать"), система предлагает ввести пароль на подпись. После его введения документ "подписывается". На самом деле, в специальных полях таблицы СУБД указывается время, дата, имя и фамилия пользователя системы, "подписавшего" документ. С одной стороны, подобные системы очень просты и эффективны. А насколько можно говорить об их соответствии "Закону об ЭЦП"?

Если следовать логике Закона об ЭЦП, т. к. подобная подпись не имеет ключей и сертификатов (как правило, производители ПО управления архивом просто не имеют соответствующих лицензий в области защиты информации), такая подпись не является аналогом "живой подписи на бумаге". Использовать такого рода подписанные электронные документы в случае, например, исков, судебных разбирательств, нельзя. Они не имеют юридической силы.

С другой стороны, следуя опять же логике Закона, использование электронной подписи без необходимых ключей и сертификатов у нас в стране не запрещено. Только вот подписанные ей электронные документы не имеют юридической силы. Хотя это совсем не означает "бесполезность" таких систем электронной подписи.

Рассмотрим пример. Заместитель начальника отдела четко выполнил все действия, регламентируемые приказом начальника отдела, выпущенным ранее, хранящемся в электронном архиве и "подписанным" подобной подписью. Действия нанесли (не дай Бог, конечно!) некий ущерб деятельности Вашего предприятия. Пытаясь разобраться, Вы решили наказать исполнителя. Когда же, благодаря наличию подписи, выясняется, что исполнитель не виноват (он просто выполнял указания начальника отдела!), наказания не следует, поскольку данная система электронной подписи принята Вами в рамках предприятия.

Приведем другой пример. Используется система электронного архива, имеющая такого рода систему подписи и возможность работы пользователями предприятия — партнера. Ведется некий совместный проект. Однажды выясняется, что нанесен серьезный ущерб деятельности одного предприятия, которое выполняло действия, изложенные в документе, созданном на другом предприятии. Документ подписан такой электронной подписью. "Пострадавшая" сторона выдвигает претензии к "виновной" и иск на сумму материального и морального ущерба. При рассмотрении иска необходимо предоставить суду документ, на основании выполнения которого причинен ущерб. Документ существует лишь в электронном виде, подписанный не сертифицированной подписью, он не имеет юридического статуса. "Потерпевшая" сторона проигрывает процесс.

Для того, чтобы понять, насколько целесообразно применение несертифицированной электронной подписи, необходимо уточнить задачу по дальнейшему "использованию" подписанных документов. Если не сертифицированная подпись признана "действительной" приказом по предприятию, она может применяться лишь для контроля "истинности" документа внутри предприятия и для обеспечения пункта ISO9000 "Ответственность руководства". Причем эта самая "ответственность" существует в пределах предприятия, а "безответственность" карается лишь лишением премии или выговором. При этом стоит помнить, что если Ваш подчиненный способен подать в суд на степень наказания (вдруг Вы решите уволить бездельника), то предоставлять документ "подписанный" такой подписью в качестве доказательства и обоснования причины увольнения бесполезно.

Другими словами, использование такого рода систем электронной подписи ограничивается лишь "административными" рамками внутри предприятия. Если когда-нибудь возникнет необходимость доказательства подлинности такого документа "вне предприятия", то это станет невозможным. Юридической силы такая подпись и такой документ не имеют. В подобных случаях необходимо использовать сертифицированную электронную подпись.

"Внешняя" электронная подпись

В рамки статьи не входит описание конкретных продуктов — систем электронной подписи, имеющих все соответствующие ключи, сертификаты и т. д., перечисленные в Законе об ЭЦП. Повторимся лишь, сказав то, что документы, размещенные в Вашем архиве и подписанные такой подписью, приобретают "юридический вес".

Взаимодействие системы электронного архива с такой электронной подписью может быть реализовано следующим образом: документ "подписывается" и только после этого "помещается" в архив. Перед процессом "подписания" необходимо вызвать средство электронной подписи. В самом простом случае, это можно сделать "вручную", запустив соответствующее приложение. В более "удобном" для пользователя варианте возможно организовать взаимодействие системы электронного архива и системы "внешней" электронной подписи через API.

Средства криптографического шифрования

Для дополнительной защиты информации, хранящейся в системе электронного архива, возможно применение средств криптографического шифрования. Не будем углубляться в способы, алгоритмы шифрования и описания конкретных средств. Скажем лишь, что средства шифрования, также как и система электронной подписи могут быть сертифицированные и несертифицированные. Использование этих средств определяется законодательством РФ, толкование которого не входит в рамки статьи.

Как правило, широко применяемые "архивные" системы не имеют встроенных средств шифрования. В связи с этим, решая такую задачу, необходимо осуществить шифрование файла до помещения его в архив. Опять же как и при использовании "внешней" электронной подписи, можно "вручную" вызвать соответствующее приложение и зашифровать файл, а возможно организовать взаимодействие системы электронного архива и системы криптографического шифрования через API. При извлечении файла из электронного архива его необходимо расшифровать соответствующим средством, опять же вызываемым "вручную" или через API.

Система архива и документооборота

"Центром" всей системы архива, объединяющим все подсистемы и организующим взаимодействие между ними, является специализированный программный продукт. Не называя конкретных продуктов от разных производителей, опишем их основные функциональные возможности. Несмотря на разные подходы к реализации, разные "ниши" пользователей, всё подобное ПО имеет сходные возможности. Отличия определяются лишь подходом к реализации и "нишей" потенциальных клиентов, для которой и создавался конкретный продукт.

Для более полного изложения материала описываются продукты, реализующие 4 способа создания системы электронного архива. Если Вам ближе 1, 2 или 3 способы создания электронного архива, то часть функциональных возможностей просто не пригодится.

ПО архива и документооборота представляет собой, как правило, приложение архитектуры "клиент — сервер" или использует WEB — технологии и XML. В любом случае, в состав системы входят:

  • Сервер СУБД;
  • WEB — сервер (только для систем, использующих WEB — технологии);
  • Серверная часть системы;
  • Файловый сервер[1] (как правило, в разных системах реализация разная, но, как правило, необходимо программно обеспечить взаимодействие с хранилищами данных);

    [1] Здесь имеется ввиду не аппаратное средство хранения файлов документов, а специальное приложение, как правило, работающее, как сервис по одному из TCP/IP портов на сервере системы. Основной задачей этого приложения является организация взаимодействия между областями хранения и СУБД. В некоторых системах, приложение называется "Файловый сервер" в некоторых "Сервер документов", что совсем не влияет на его назначение.

  • Клиентские части.

Перечислим основные функции ПО:

  • Обеспечение прав доступа к информации, согласно реальной должностной структуре предприятия;
  • Обеспечение ввода любых документов предприятия в единую базу данных с заведением карточки документа и размещением файла (файлов для сборок) в той или иной области хранения. Система позволяет вводить любые документы, независимо от приложения, в котором они созданы или формата, в котором отсканированы, также независимо от потока информации — общего (административного), инженерно-конструкторского, проектного или другого. Следует отметить, что система позволяет формировать необходимые для того или иного типа документов атрибуты карточки и работать с документами на бумаге, даже включая их в систему документооборота;
  • Обеспечение отображения структуры изделий (например, сборок);
  • Обеспечение отображения логических связей между файлами документов, созданных в различных приложениях. Например, файл чертежа может храниться в формате TIFF, DWG и т. д., а файл спецификации может быть созданным, например, в MS Excel. При этом в файловой структуре одного документа могут содержаться разнородные файлы, открываемые для редактирования и (или) просмотра соответствующими приложениями. При этом документ имеет одну учетную запись и карточку;
  • Обеспечение реально существующих логических связей документов, принадлежащих к разным потокам информации. Например, письмо, пришедшее административным или "канцелярским" потоком секретарю, может иметь логическую связь с инженерно-конструкторской документацией. Такая связь может быть отображена, и файл письма "присоединен" к файлу чертежа (чертежей);
  • Обеспечение логического объединения всей документации, независимо от потока, в папку или раздел архива, относящийся, например, к одному изделию, проекту;
  • Обеспечение взаимодействия со всеми подсистемами комплексного решения — системы электронного архива и документооборота. Система обеспечивает взаимодействие с устройствами сканирования, тиражирования, хранения и пользовательскими приложениями, принятыми для работы с документами любых потоков на предприятии;
  • Обеспечение поиска по заданным или формируемым пользователем запросов любого документа;
  • Обеспечение взаимодействия между пользователями посредством встроенной системы электронной почты с возможностью рассылки сообщений и вложенных документов;
  • Обеспечение "статусности" документов. Система позволяет создать любое число любых статусов, которые могут иметь реальные документы предприятия;
  • Обеспечение "версионности" документов. Система позволяет создавать и хранить несколько версий одного документа;
  • Обеспечение подписи документа. Система имеет встроенную систему электронной подписи. Сведения о лице, подписавшем документ, дате, времени подписи регистрируются в системе;
  • Обеспечение маршрутизации документа. Система позволяет составить маршрут, указать его в способе обработки при регистрации нового документа. Способ обработки включает: условия перехода документа между пользователями, изменения статуса (например, в зависимости от результатов проверки), подписи, автоматическое создание версий (при необходимости), автоматическое создание извещений об изменениях (при необходимости), автоматическую рассылку документа следующему пользователю с автоматическим вложением документа или его версии, извещения об изменении, перемещением из одного раздела архива в другой (например, при присвоении статуса "Помещен на долгосрочное хранение"). Способ обработки (маршрут) может иметь любое число переходов, учитывать "возврат" не подписанного и не прошедшего проверку документа на доработку. Способы обработки составляются в соответствии с имеющимися на предприятии;
  • Обеспечение системы отчетов. Система позволяет формировать любые отчеты, необходимые, например, для анализа работы.

Выше перечислены основные функции ПО, реализующего 4 способ подхода к решению проблемы создания системы электронного архива предприятия. В системах, реализующих "предыдущие" способы решения, часть функций просто отсутствует. Хотя практика показывает, что при внедрении систем подобного уровня, как правило, предприятию приходится "пройти" все ступени, но уже при использовании установленной системы.

Новости мира IT:

Архив новостей

Последние комментарии:

Релиз ядра Linux 4.14  (6)
Пятница 17.11, 16:12
Apple запустила Pay Cash (2)
Четверг 09.11, 21:15
Loading

IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

Информация для рекламодателей PR-акции, размещение рекламы — adv@citforum.ru,
тел. +7 985 1945361
Пресс-релизы — pr@citforum.ru
Обратная связь
Информация для авторов
Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
Copyright © 1997-2000 CIT, © 2001-2015 CIT Forum
Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...