Климов В.
Весть-Метатехнология

Концепция построения системы управления документами

по материалам публикаций сотрудников компании ВЕСТЬ-Метатехнология

Каждый из Вас определенное время тратит на разбор бумаг на своем столе или, что еще хуже, во всей организации. Что бы Вы не делали, каким организованным Вы не были, бумага это такая вещь, которая обладает невероятной живучестью и способностью накапливаться в неимоверных количествах. Папки, полки, шкафы и все забиты бумагой. Нужный документ трудно найти, а ненужные всегда под руками. После долгого поиска обнаруживается, что неделю назад Вы его отправили в машинку для переработки бумаг, а сервер вчера упал, и администратор заболел. Другая "картина маслом", с которой приходится сталкиваться практически каждому ответственному сотруднику, спектр задач которого на столько велик, что ему в помощь выделяют специального сотрудника, чаще сотрудницу. Рядовые на первый взгляд причины - болезнь сотрудника или одного из его близких, командировка или отпуск - может привести к тому, что его не окажется на рабочем месте…а вы совместными усилиями только вчера закончили подготовку документа, который сегодня был затребован клиентом. Согласитесь, что это является вполне "уважительной" причиной, чтобы у компьютера собралось совещание, среди которого присутствуют как люди, познавшие компьютер, так и сочувствующие, пытающиеся своим участием отвлечь озабоченного руководителя от мрачных мыслей - масса потерянного, времени, нервов. Картина приобретает более мрачный оттенок, если от этого документа зависит судьба миллионного контракта. Что делать? Как превратить компьютер из чудовища производящего документы, в симпатичного друга, организующего столь неорганизованное существо как человек.

В мире существуют два основных типа документов - бумажные и его клоны и электронные. Они существуют вместе, дружат и враждуют, но не могут жить друг без друга. Бумажные документы порождают электронные (например, сканирование документа) и наоборот электронные в бумажные документы (например, процесс печати документа). Существуют оценки западных консалтинговых компаний о том как живут и видоизменяются миры электронных и бумажных документов 1

Документ, как любая вещь, приносящая прибыль и помогающая в бизнесе, так же привносит долю расходов. Как известно, повышать прибыль бизнеса можно путем снижения затрат на этот бизнес. Западные консалтинговые компании потратили много сил для оценки расходов на обработку бумажных документов. Что не мало важно, эти оценки приведены не в долларах, а в разах, штуках и процентах. Это поможет избежать несоответствий при переносе этих оценок в российскую действительность. Дело в том, что до сих пор существуют значительные различия в стоимости оплаты труда у нас и на Западе, что, естественно, является немаловажным сдерживающим фактором в переходе к электронным документам.

Данные потери, которые в масштабах только Соединенных Штатов близкую к триллиону долларов в год. Поэтому понятно желание бизнесменов избавиться как можно быстрее от бумажных документов и перейти к электронным. Существуют оценки, насколько выигрывает каждая компания при переходе к электронным документам.

Попробуем понять, почему же переход к электронным документам дает такие преимущества

Они позволяют

Защита от потери или повреждения

Защита от несанкционированного доступа

Думается, что вышеприведенные факты показали преимущества обработки электронных документов и те мировые тенденции, которые свидетельствуют о постепенном переходе на новые, ресурсосберегающие электронные документы. Здесь хотелось бы сделать некоторые замечания, которые отражают специфику отечественного рынка работы с документами. По большому можно выделить трудности 3-х уровней при переходе на безбумажную технологию работы с документами:

  1. техническую неготовность организаций для работы с электронными документами (что может выражаться как в тривиальной проблеме отсутствия компьютера на столах у сотрудников, так и в том, что в организации нет необходимых программно-аппаратных средств для перевода документов из одной формы представления в другой - скажем, из бумажного представления в электронный из-за отсутствия сканера)
  2. технологическую недопустимость перевода отдельных категорий конфиденциальных документов в электронный вид (службы безопасности требуют, чтобы такого рода документы передавались под роспись через поверенного или курьера) так же нельзя упустить из поля зрения следующее обстоятельство, которое можно рассматривать как объективное "в конкретной ситуации" - многие высокопоставленные сотрудники или не имеют свободного времени для постоянного общения с компьютером, или же они просто не работают с "электронным другом". Здесь приходится прибегать к процедуре перевода документа из электронного вида в бумажный(через печать) или наоборот (путем сканирования) и создания, например, версий документа.
  3. законодательная база - даже если в пределах отдельно взятой компании или организации решили перейти к безбумажной работе с документами, компания все -равно не сможет существовать изолированно - между ней и внешним миром постоянно циркулируют различного рода документы. А именно здесь и возникает необходимость законодательного разрешения вопроса относительно того, что собственно понимается под электронным документом и какой вид электронного документа может иметь юридическую силу (вопросы, связанные с достоверностью пересылаемых документов), что получает особый оттенок в период построения правовых способов решения конфликтных ситуаций.

Еще раз хотелось бы подчеркнуть тот факт, что никто не стремится изжить бумажные документы как таковые, переход к обработке электронного представления документа позволит прежде всего повысить эффективность анализа, доступа и работы сотрудников с информацией - уменьшаются временные затраты на передачу документов, упрощается решение вопросов, связанных с обработкой связанных документов, аннотацией документа несколькими сотрудниками с последующим анализом сделанных замечаний и предложений и многое другое.

Естественно, электронные документы не существуют сами по себе, придумано множество технологий, программных продуктов, которые позволяют организовывать документы и работать с ними более эффективно. Для того, чтобы эффективно управлять документами, надо знать об источниках их происхождения. Исходя из схемы, существует множество источников и типов документов. Главная задача работы с документами - это перехват, регистрация и сохранение всех документов (или учетной информации по ним), связанных с жизнедеятельностью предприятия таким образом, чтобы мы могли быстро потом его найти в соответствии с правами доступа. Поэтому, вырисовывается следующие основные задачи при организации работы с документами

Уметь работать с бумажными документами (когда информация поступает и до определенного момента - быть может всегда - документ обрабатывается именно в бумажном виде, здесь система фиксирует различные атрибуты документа, на анализе которых можно получить представление относительно того, что же происходит с документом в конкретный момент времени)

Уметь переводить бумажные документы в электронный вид (и поддерживать последующую их обработку либо в виде образа, скажем в формате tiff, либо распознать посредством блока OCR)

Уметь перехватывать все создаваемые электронные документы, как то

Отчеты и другие документы, которые готовят разного рода информационные системы. Они обычно попадают сразу на печать или отправляются по факсу. Часть из них может быть востребована для анализа вторично, что подразумевает их принудительное размещение в хранилище электронных документов

Можно решать какую-либо конкретную задачу по перехвату тех или иных типов документов, например, проблему по вводу банковских документов, но всегда нужно помнить о том, что ваш сотрудник, которому нужен доступ к банковским документам, нужен также доступ к офисным документам. Создавать два отдельных рабочих места или устанавливать две отдельные системы со схожими задачами не разумно. Поэтому система, которая обеспечивает работу с электронными и бумажными документами должна по крайней мере поддерживать работу со всеми типами документов, обеспечивая прозрачную навигацию пользователей по всему доступному информационному пространству и, при необходимости, безболезненно подключать к системе другие типы документов, определяя при этом регламент их обработки.

Следовательно, основным принципом организации систем работы с электронными документами является принцип "информационного зонтика" - работать со всеми типами документов, которые связаны с жизнедеятельностью предприятия. Если говорить о принципах построения систем, то среди них можно отметить следующие

Масштабируемость

Данное свойство является необходимым с точки зрения защиты инвестиций пользователя, затраченных на создание и настройку системы, а так же обучение пользователей и обслуживающего персонала. Оно означает что система может работать как с одним пользователем, так и с 10.000, как с 10 документами, так и с 10 миллионами. При увеличении нагрузки на систему Вы можете сменить сервер, на котором работает система. Поэтому при построении решения нужно руководствоваться принципом поддержки максимально возможного количества операционных систем, там где это не удается, необходима поддержка, по крайней мере, Windows NT. Для того, что обеспечить переносимость данных, желательна поддержка многоплатформенных серверов баз данных, таких как Sybase, Oracle, Microsoft, Informix. Если данные принципы по возможности соблюдены, тогда пользователь может не беспокоится о будущем и подбирать конфигурацию программно-аппаратного окружения системы, в случае резкого увеличение числа пользователей и, следовательно, нагрузки на систему можно перейти на более мощную аппаратную платформу при неизменности самой системы и данных. Кроме того, под масштабируемостью понимается возможность наращивать мощность системы интенсивным образом, т.е. не повышая мощности сервера, а увеличивая количество серверов на предприятии. Особенно важно чтобы при этом система оставалась единым целым и не требовала "настройки с нуля".

Открытость

Мы должны гарантировать, что система аккуратно впишется в уже существующие или новые приложения, кроме того, комплекс зачастую обязан функционировать в гетерогенных и, что особенно важно, в распределенных средах. Это требование напрямую связано с требованием масштабируемости, только оно его расширяет, так как требует одновременной поддержки множества платформ, сетевых сред и серверов баз данных. Кроме того, предлагаемое решение должно обеспечивать легкое подключение внешних приложений, а это значит, что приложение должно иметь

Также к требованию открытости системы относится поддержка существующих стандартов в соответствующих областях, граничащих с решением задач, связанных с обработкой документов. К этим стандартам в области работы с документами относятся Shamrock и ODMA (Open Document Mangement API), в области управления деловыми процессами - WorkFlow Coalition API и т.д. Поддержка указанных стандартов позволит вам без труда переходить на новые версии приложений.

Модульность и технологичность

Не всегда необходимо внедрять весь комплекс работы с документами на предприятии сразу. Это может быть вызвано разными причинами: от нехватки средств в данный момент, до неспособности организации "с понедельника" резко перестроить свою работу. Поэтому система должна состоять из модулей, каждый из которых позволяет решить ту или иную задачу, причем эти модули могут без особого труда добавлены в работающую систему в произвольной последовательности. И что самое главное они по возможности должны быть независимы друг от друга, при сохранении глубокой интеграции между ними. Например, решение задачи автоматизации можно начать с решения задачи поддержки исполнения, а можно с электронного архива, но независимо от выбора, можно все равно прийти к полноценной системе. Невозможно найти систему, которая через 5 минут после инсталляции из коробки будет решать весь класс задач оптимальным образом для каждого пользователя (если, конечно, технология работы с документами в вашей компании полностью отвечают тем настройкам, которые поставляются с комплексом, что бывает крайне редко), но система должна требовать минимальное программирование и адаптацию под каждого пользователя. Выполнение данного принципа снижает цену, уменьшает время внедрения, что, естественно, повышает надежность в эксплуатации. Особое значение и важность для предприятий в настоящих условиях приобретает фактор простоты модификации настроек существующей системы силами обслуживающего персонала (Отдел разработки - это, безусловно, удобно, но довольно дорого для многих организаций), что может быть сопряжено с динамично изменяющимися внешними условиями на рынке.

Исходя из вышеизложенного, попробуем обрисовать составные части системы, работающей с документами:

Система управления документами

Ядром является система управления документами. К ее основным задачам относятся

Система массового ввода документов

Для организации обработки большого количества бумажных документов и перевода их в электронную форму предназначена система массового ввода документов. Слово массовый говорит о том, что данная система масштабируема и способна работать как с одним бумажным документом в день, так и с 100 тысячами бумажных документов в день. Данная подсистема присутствует практически в любой задаче, дело лишь в количестве обрабатываемых документов.

В технологии обработки документов выделяют две основные группы

Процесс обработки документов состоит из следующих элементов

Вышеперечисленные функции решаются набором серверов приложений. Сколько же необходимо подобных серверов. Для обеспечения максимальной гибкости, естественно, хотелось на каждую операцию с изображением иметь свой отдельный сервер приложений. Но в тоже время, потери на меж серверное взаимодействие (открытие, сохранение файлов, увеличение сетевого трафика и тому подобное) при увеличении количество серверов приложений кажутся значительными. Поэтому выделяются два основных сервера приложений13

Кроме этого необходимо специализированное клиентское программное обеспечение, которое предназначено для решения проблемы ручного индексирования документа, в том случае, если не удается сделать это автоматически. Также данное рабочее место может служить для контроля качества обработки документа.

Количество серверов каждого типа определяется конкретной производительностью каждого сервера в конкретной конфигурации на заданной программно-аппаратной платформе и требуемой производительностью системы массового ввода. В общем случае мы получаем разное количество серверов, как на уровне скан-станции, так и на уровне сервера обработки и распознавания. Это явно не одна линия и с этой прорвой серверов надо как-то управляться. Существуют два основных метода управления серверами массового ввода

Все вышеизложенные функции могут решаться как программным, так и аппаратным обеспечением. Естественно, программное обеспечение более гибко в настройке и содержит более новые технологии о обработке изображений документов, чем аппаратное решение, но платы дают ряд преимуществ по сравнению с программным решением

Кроме того, практически все скоростные сканеры достигают своей физической производительности через специализированные скоростные интерфейсы15, поддерживаемые платами обработки изображения. Платы могут применяться не только для ускорения ввода документов, но и для ускорения вывода на печать документов на принтер и экран.

Платы (или по-другому, процессоры документов) подразделяются на несколько типов

Необходимо отметить, что для решения определенных задач, связанных с обработкой большого количества бумажных документов, существуют специальные технологии, позволяющие без потери качества избежать многих дорогостоящих операций, которые были рассмотрены выше. Для многих предприятий сегодня актуальной является проблема ретроконверсии - перевода документов с бумажных носителей в электронный вид для дальнейшего анализа. Скажем, имеется большой архив бумажных документов, содержание которых необходимо для повседневной работы сотрудников. Что же предлагается? Документы все или порциями сканируются, после чего автоматически распознаются имеющимся в Вашем распоряжении OCR16, после чего, без какой либо ручной правки ошибок распознавания, используется механизм нечеткого поиска (продукт Excalibur RW), который позволяет находить нужную информацию даже в тех документах, где слова были распознаны или же набиты (увы, зачастую случается и такое) с ошибками. Особенностями предлагаемого подхода для решения данной задачи являются:

В этом же пакете имеются специальные модули, которые позволяют анализировать графическую, аудио и видео информацию.

Системы автоматизации деловых процессов

Очень сложно говорить о системах данного типа, если в России не существует ясного понимания что есть, что. Единственным термином, который сейчас применяется для обозначения такого класса систем - это документооборот. В дальнейшем не хотелось бы применять этот устоявшийся термин, не отражающего реально проблему со всех сторон, так как является только составной частью класса систем автоматизации деловых процессов (в дальнейшем, АДП системы18). Для того, чтобы правильно сейчас и в последующем обсуждении понимать то о чем будет говорится, необходимо сначала дать определение терминам.

Над ниже приведенными определениям работала коалиция из 30-ти производителей подобных систем.

Кроме того системы можно подразделить по типу движения задач

Нельзя говорить о преимущества и недостатках того или иного способа движения задач. Каждый из них применим для конкретной ситуации на конкретном предприятии. Для того, что бы определится о том, как решать для конкретного случая проблему выбора, необходимо поговорить еще об одном важном элементе АДП- систем, как контроль исполнения.

Контроль исполнения также является интегрирующим термином. Для того, чтобы лучше понимать о чем идет речь, рассмотрим уровни контроля исполнения задания.

Уровни контроля исполнения задания

Информация может выдаваться в виде изменения статуса задания в окнах входящих и исходящих заданий или в виде нового задания сформированного системой инициатору задания или просто с помощью сообщения по электронной почте.

Итак, обобщая систему классификации и перекладывая ее на реальную жизнь, можно сказать, что:

Рассмотрим компоненты АДП-систем21 высшего класса.

Кроме составных частей, которые описывают практически любую АДП-систему25, необходимо помнить, что АДП-системы не должны работать напрямую со списком конкретных сотрудников, а только через список ролей, которые могут исполнять конкретные сотрудники. Использование ролей позволяет

После того, как мы обрисовали то, какие бывают и из чего состоит АДП-система, необходимо поговорить об архитектуре построения систем. Относительно архитектурного построения таких систем идут большие дебаты между специалистами в этой области. Но мир устроен таким образом, что не существует абсолютного оружия для всех целей. И ставить вопрос, что лучше, не разумно. Лучше спросить, что лучше в моем случае, для моей конкретной задачи. Обратимся к архитектурным моделям. В основном, они различаются по типу ориентации

Какую модель выбрать для своей системы, это в основном зависит от Вас, от стиля работы Вашего предприятия, от задач, которые стоят перед Вами. В жизни никогда не побеждают крайности и последние версии ряда АДП-систем доказывают нам это. Корпорация KeyFile выпустила новую АДП-систему, которая в качестве транспортного механизма использует Microsoft Exchange, а объектную базу данных собственной разработки для информационного хранилища для деловых процессов. Также имеет право на жизнь и обратный подход, к существующей АДП-системе, основанной на базе данных прицепить почтового клиента, который поддерживает удаленных пользователей.

Все вышеизложенное выше не претендует на всесторонний анализ проблемы работы с электронными документами, но он может быть оказаться полезным для выбора той или иной системы. В данном обзоре не делалась попытка дать какие-либо рекомендации по выбору того или иного конкретного программного продукта, так как рекомендации должны быть всегда привязаны к конкретным требованиям и условиям заказчика. Компания ВЕСТЬ - Метатехнология имеет в своем портфеле набор программных продуктов и технологий, которые закрывает определенные задачи по консалтингу, управления документами ( организационно - распорядительными, чертежно-конструкторскими, финансовыми) и управления деловыми процессами. Но понимая то, что каким бы хорошим продукт не был, он не решит все задачи, которые иногда возникают в гениальном мозгу заказчика, нам пришлось обобщая накопленный опыт создавать новые программные продукты, которые дополняют функционал уже имеющихся. Почему же не написать все с нуля, задаст вопрос проницательный читатель. Идеи написания своей операционной системы, системы управления документами и подобных сложных управляющих комплексов посещают людей или никогда не писавших программы в своей жизни27, либо не желающих оглядеться вокруг и посмотреть, что, кто делает. Поэтому наша позиция сейчас следующая: от продуктов и технологий, которые максимально соответствуют всем принципам изложенным выше и решает все функции с багажом имеющегося опыта выполненных и работающих проектов создавать программно-аппаратные комплексы, представляющие представляют собой единый сбалансированный комплекс, удовлетворяющий требованиям Заказчика на 101 процент.


1Все эти и последующие оценки были взяты из Mantelman's Imaging Buyers Guide

2Например, по истечении заранее заданного срока документ перемещается с жесткого диска на стример

3Исключение составляют, так называемые стоповые слова, которые пропускаются при процессе индексирования документа. К ним относятся предлоги и другие незначимые в процессе поиска слова.

4Например, когда Вы ищете документ по слову "договор", система найдет все документы, в которых есть слова "договор", "договора", "договором", "договору" и т.п.

5Например, когда Вы ищете документ по слову договор, система находит все документы, в которых есть слова "договор", "соглашение", "контракт".

6На сегодняшний день у многих производителей это в планах, но не в реальном воплощении

7Например, одному пользователю Вы можете разрешить вносить изменения в созданный Вами документ, а другой пользователь должен создать для внесения правок новую версию.

8Смотри, прекрасные функции аннотирования в новом Word for Windows

9Не в том смысле, что его нельзя распознать и превратить в файл Word for Windows, а том, что незачем делать если этот документ - счет на оплату или накладная.

10Типа 3M"овских Post It

11зачастую возникает проблема обработки однородных форм, имеющих однотипное расположение полей, но отличающихся как по геометрическим параметрам, так и по качеству изготовления (скажем, те же платежные поручения могут быть с одинаковым успехом распечатаны как на матричном, так и на лазерном принтере)

12Здесь с качеством распознавания большие проблемы

13Подобное разделение связано с тем, что:
Производительность системы во многом определяется максимальной производительностью сканера (сканеров), которые используются в системе. Скан-станция, которая управляет сканером должна быть оборудована и настроена таким образом, чтобы поддерживать производительность сканера на максимальном для него уровне. Поэтому нецелесообразно загружать скан-станцию дополнительными функциями.
Функции индексирования уже выделены и готовы для использования в качестве отдельного сервера приложений. Кроме того, этот сервер может использоваться для общекорпоративных задач. Поэтому , нецелесообразно сливать этот сервер приложений с другими.

14Причем вариантов может быть больше двух.

15Так называемый видео-интерфейс

16при этом в архиве может хранится как отсканированный образ документа, так и тот документ, который получился в результате распознавания

17увы, сегодня ни один производитель систем распознавания текстов не дает 100% гарантии правильности распознавания

18в литературе часто можно встретить название workflow-системы

19Существуют примеры, когда АДП-функции встраиваются в конкретные специализированные информационные системы и тогда можно говорить о так называемых workflow-enabled информационных системах

20Например, если на сервере запущен только один деловой процесс - "Подготовка бюджета предприятия", то с помощью этой системы Вы не сможете попросить секретаршу принести чашечку кофе.

21Классификация из статьи Ronni T. Marshak, "WorkFlow: Applying Automation to Group Processes"

22Например, процесс творчества можно представить цикличным, итерационным, процессом с неизвестным заранее количеством циклов. Такой процесс довольно трудно реализовать с помощью направленного графа.

23Кстати, запатентованную в США двумя патентами

24Например, система выгружает информацию о входящих заданиях в InBox программы электронной почты Microsoft Mail

25В том случае, если какой-либо части в предлагаемой Вам системе нет, посмотрите, не инвалида Вы покупаете.

26Кстати отсюда появился термин маршрутизация.

27Допускаю, что они баловались в институте или на ящике с Паскалем славной фирмы Борланд