http://www.rusarchives.ru/zhurnal-otechestvennye-arhivy/soderzhanie-nomerov/2019/nomer-5
http://www.rusarchives.ru/publikacii/otechestvennye-arhivy/5763/balasanyan-sohrannost-elektronnyh-dokumentov-problemy-i-resheniya
В условиях цифровизации нашей страны одной из актуальных проблем является сохранение электронных документов. Вырабатываются подходы к ее решению, накапливается определенный опыт. Введены в действие соответствующие государственные отраслевые стандарты: ГОСТ P 54 989–2012/ISO/TR 18 492:2005 «Обеспечение долговременной сохранности электронных документов», ГОСТ Р ИСО 13 008–2015 «Информация и документация. Процессы конверсии и миграции электронных документов».
Однако в ряде стран к решению этой проблемы приступили раньше. В последние два десятилетия в международной практике сформировалось новое междисциплинарное направление прикладных исследований – электронное сохранение (digital preservation), в рамках которого изучаются риски долговременного хранения, формулируются мероприятия и инструментарии по обеспечению сохранности. Сегодня реализуется целый ряд национальных и международных проектов по созданию архивов долговременного хранения электронных документов, появилось большое количество нормативов, стандартов, программных средств и баз данных по этой теме. Важно отметить, что значительные достижения стали возможны во многом благодаря международной кооперации архивных служб и учреждений.
Прежде чем представить выработанные в мировой практике решения, напомним, что электронный документ – это последовательность цифровых кодов, хранящихся на специальных носителях (электронных, магнитных, оптических и т.д.), информация на которых недоступна человеческому восприятию. При записи на носитель осуществляется преобразование воспринимаемой человеком информации (текста, звука, изображения, видео и т.д.) в кодовую последовательность с помощью специальной аппаратуры и программ, а при считывании – обратное преобразование и вывод на экран, принтер и т.п.
Проблемы хранения обусловлены тем, что, с одной стороны, носители электронных документов, как правило, менее надежны, нежели бумага, и быстрее деградируют физически, с другой – темпы развития информационных технологий таковы, что системы кодирования информации, виды носителей (диски, дискеты, флэшки и т.д.), а также связанные с ними устройства и программы регулярно обновляются, а прежние исчезают из обихода. Вследствие этого консервация носителя сама по себе проблемы сохранности электронного документа (по крайней мере, за пределами 5–10 лет) не решает. Со временем информация не может быть считана либо из-за физического разрушения носителей, либо из-за устаревания применявшейся для записи технологии. Значит, пассивная консервация носителя бесполезна. Поэтому на первый план выходят постоянные активные действия по контролю сохранности электронных документов, анализу рисков и предупреждающей миграции документов на новые носители с возможным преобразованием форматов.
Долговременное хранение электронных документов сопряжено с рядом специфических рисков. Так, их носители подвержены ошибкам (сбоям) при записи/чтении информации, вирусным атакам и физической деградации. По разным данным, время жизни магнитных дисков отличается: гибких – составляет от 3 до 5 лет, твердых – от 2 до 8, а магнитной ленты – от 10 до 30 лет; в среднем раз в десятилетие носители морально устаревают. На смену им приходят новые, более эффективные носители и соответственно новые аппаратно-программные средства, выпуск же средств для работы с устаревшими носителями прекращается.
Еще один риск связан с обеспечением преемственности при пересмотре, обновлении или замене, по мере развития технологий, форматов (правил преобразования), специфических для каждого вида информации (текстов, изображений, видео и т.д.). Новые программы и устройства, как правило, работу с прежними форматами не обеспечивают. Для считывания, интерпретации и установления аутентичности электронного документа необходимо обеспечить сохранение не только содержания (контента), но и метаданных, описывающих его свойства и жизненный цикл, в том числе архивное хранение.
Противостоять вышеназванным рискам помогают различные программно-технические решения. Это, к примеру, может быть консервация. Под ней понимается сохранение исходной технологии, т.е. использование применявшихся ранее аппаратно-программных средств для работы с документами в оригинальных форматах и на оригинальных носителях (так называемый музейный подход).
Еще одно решение – эмуляция – воспроизведение функциональности устаревшей системы для обеспечения работы с устаревшими форматами данных. Оно включает и виртуализацию, подразумевающую создание на компьютере так называемой виртуальной машины, воспроизводящей функциональность исходной аппаратно-программной среды. Инкапсуляция – сохранение описания документа в одном объекте с самим документом – предполагает включение технического описания документа в состав цифрового объекта, что уменьшает его зависимость от внешней среды, поскольку данная информация позволяет либо воспроизвести исходную среду, либо перенести документ в новую. Миграция – перенос документов на другие носители или в другую систему, а конверсия – преобразование в другие форматы. В настоящее время миграция/конверсия являются основными стратегиями, применяемыми в мировой практике электронного сохранения. В случае, когда не было выполнено необходимых действий по сохранению документа, может помочь восстановление недоступного или искаженного документа, т. е. цифровая археология (digital archaeology). Но это вынужденная стратегия.
Обеспечить сохранность электронных документов помогает комплекс организационно-технических мероприятий. Их перечень приведен в рекомендациях Национального альянса по цифровому управлению США (National Digital Stewardship Alliance – NDSA). Это создание копий электронных документов и помещение их в различные геолокации; использование механизма контрольных сумм для контроля неизменности документа; разграничение и аудит доступа, антивирусная защита; использование рекомендуемых стандартов архивных метаданных и ведение метаданных процесса сохранности электронных документов; ограничение числа поддерживаемых форматов и миграция в более устойчивые форматы по мере появления критических рисков.
Поясним суть данных рекомендаций. В связи с различными угрозами сохранности (вирусы, недостаточная надежность носителей, возрастающая при их старении) информация на носителях может быть частично искажена или даже полностью утрачена. Ключевым показателем при этом является точное сохранение последовательности битов, так называемая целостность данных (data integrity). Применительно к электронным документам чаще используется термин «неизменность документа» (file fixity). Общепринятым инструментом контроля неизменности документа является отслеживание так называемой контрольной суммы файла с помощью криптографических алгоритмов (хеш-функция). Неизменность контрольной суммы – значения хеш-функции – дает гарантию того, что ни один бит документа не изменился. Мониторинг контрольной суммы позволяет выявить наличие изменений в файле, но не дает возможности обнаружить и исправить саму ошибку. С этой целью необходимо выполнять резервное копирование и в случае изменения контрольной суммы восстанавливать документ из резервной копии.
При наличии в архиве большого количества разнородных и разрозненных носителей процедуры контроля состояния электронных документов и обеспечения их битовой сохранности технологически весьма затруднены в силу объема работ и стоимости оборудования. Эффективной альтернативой является переход от хранения отдельных носителей к использованию единого хранилища, гарантирующего битовую сохранность информации за счет контрольных процедур, необходимого резервирования и планового технического обновления аппаратно-программных средств хранения. В современных условиях профессиональные услуги надежного хранения оказывают дата-центры и облачные хранилища.
Для хранения различных видов информации используются тысячи различных форматов и их версий, которые постоянно обновляются. Чтобы обеспечить доступность документа в течение всего срока хранения, архивы должны вести постоянный мониторинг актуальности форматов документов и при высоких рисках их дальнейшего использования осуществлять миграцию в более перспективные форматы. Для оценки перспективы использования формата вводится понятие его устойчивости (sustainability), т.е. возможности длительного использования документов, сохраненных в этом формате. На устойчивость формата влияют следующие факторы: доступность его описания или прозрачность (воспринимаемость человеком), что упрощает создание программ для работы с ним; распространенность (вероятность сохранения средств работы с форматом в будущем повышается при его массовом использовании в настоящем); независимость от внешней среды, т.е. отсутствие необходимости привлекать какие-то дополнительные ресурсы; правовая и техническая защита, например лицензионные ограничения, пароли, шифрование.
При прочих равных условиях преимущество отдается так называемым открытым форматам (стандартам), использование которых общедоступно и ничем не ограничено, а также форматам, не зависящим от аппаратно-программной среды. Поскольку для хранения информации одного и того же вида может применяться множество различных форматов, что несет угрозу управлению ими в архиве, желательно сократить их разнообразие. Это можно сделать посредством установления ограничений на форматы документов, которые принимаются на архивное хранение, и/или путем конвертирования не поддерживаемых архивом форматов документов при их приеме в архив (так называемая нормализация форматов).
Сегодня все большая часть электронных документов хранится в базах данных, на основе которых функционируют различные информационные системы: регистры, реестры, системы управления документами и т.п. Для текущей работы с БД требуется специальное программное обеспечение – системы управления базами данных (СУБД). Их использование для архивного хранения данных сопряжено со значительными рисками и проблемами. Ведь поскольку данные хранятся в специальных, как правило, закрытых форматах, для доступа к ним нужно соответствующее программное обеспечение, которое, в свою очередь, регулярно обновляется производителем, как и форматы, что требует проведения работ по миграции данных. К рискам использования СУБД относится и высокая стоимость поддержания БД в форматах СУБД (лицензии, высококвалифицированный ИТ‑персонал, платная поддержка производителя, высокопроизводительное оборудование). Конечно, можно хранить не сами базы, а их отдельные элементы, например извлеченные документы. Однако в этом случае теряется важнейшая информация о связях между документами в базах данных.
Концепция электронной сохранности баз данных (database preservation) предлагает для решения проблем долговременного хранения их перевод в архивный формат, который должен обладать следующими свойствами: быть открытым, прозрачным и устойчивым во времени, т.е. не зависеть от долговременных технологических изменений, а также от исходной СУБД; сохранять всю необходимую информацию из СУБД и возможность обратного реимпорта; не привлекать профессиональных ИТ‑специалистов в области СУБД.
Общепризнанным и широко используемым в архивном сообществе решением в области архивного хранения баз данных является система их архивации в открытый и программно-независимый формат – SIARD, разработанная и свободно распространяемая Национальным архивом Швейцарии. Она используется более чем в 600 организациях в 65 странах мира.
Все современные подходы и решения в области долговременного хранения электронных документов базируются на понятиях и функциональных модулях. Они предусмотрены в так называемой эталонной модели архивной информационной системы, сформулированной в стандарте ISO 14 721:2012 «Системы передачи данных и информации о космическом пространстве – Открытая архивная информационная система – Эталонная модель» (Space data and information transfer systems – Open archival information system (OAIS) – Reference model). Данный стандарт создан в развитие первой его редакции 2003 г. Устройство архивной системы OAIS представим схематически (см. рис.).
Архивная информационная система должна содержать модули, обеспечивающие выполнение следующих функций: формирование из исходных файлов электронных документов источника комплектования так называемого сдаточного пакета, содержащего файлы документов и необходимый набор метаданных; формирование так называемого архивного пакета, в том числе специальных метаданных архивного хранения, а также нормализацию форматов и группировку документов по форматам; поддержание собственно процесса архивного хранения, включая обеспечение неизменности документов и, в случае необходимости, миграцию в более устойчивые во времени форматы; формирование так называемого дистрибутивного пакета, содержащего информацию по запросам потребителей (для решения этой задачи в архивной системе предусматриваются инструменты поиска и извлечения информации).
Схема эталонной модели архивной системы
В рамках модели OAIS разработаны наиболее часто используемые открытые стандарты метаданных: дублинское ядро – популярный формат метаданных семантических ресурсов, применяемый как базовый для электронных документов; стандарт кодированного описания архива – EAD –XML‑формат архивных справочников; стандарт кодирования и передачи метаданных – METS – XML‑спецификация метаданных, необходимых для управления цифровыми объектами в хранилище; иерархический формат упаковки файлов для хранения и передачи пакетов произвольного цифрового контента – BagIt (широко используется в связи с его независимостью от аппаратных платформ, операционных систем и наличием многих программных средств для работы с ним). И, наконец, словарь метаданных для обеспечения долговременного архивного хранения электронных документов – PREMIS (он специально разработан для описания событий/действий с документом в течение архивного хранения).
Важным результатом национальных и международных проектов в области архивного хранения электронных документов являются общедоступные базы данных (регистры) программных средств и форматов электронных документов. Кроме того, доступны коммерческие программы и сервисы архивного хранения. В их числе – Регистр инструментов долговременного хранения COPTR. По состоянию на июнь 2019 г. в нем зарегистрировано 458 программ, которые сгруппированы как по выполняемым функциям (просмотр файлов и их идентификация, извлечение метаданных, проверка целостности и т.д.), так и по типу обрабатываемого контента (звук, текст, изображение, таблицы, электронная почта, базы данных и т.д.).
Национальным архивом Великобритании разработана Программа анализа форматов DROID, применяемая в большинстве проектов и систем долговременного архивного хранения. Ее основная функция – точная идентификация формата файла, даже если его расширение неверно или отсутствует. В настоящее время DROID идентифицирует более 1400 форматов файлов, и их количество постоянно растет.
Самым полным в мире общедоступным регистром форматов файлов является PRONOM, который также ведется в Национальном архиве Великобритании. Он содержит информацию о форматах файлов и программных продуктах для работы с ними: идентификации, чтения, записи и т.д. Существуют и полнофункциональные системы долговременного архивного хранения электронных документов. Значительная их часть применяется в пилотном режиме в ограниченном числе организаций. Наиболее продвинутым промышленным решением стала коммерческая система долговременного архивного хранения компании Preservica. Ее программным обеспечением пользуются сотни заказчиков в десятках стран, включая крупнейшие компании и международные консорциумы, а также национальные архивы.
Несмотря на определенные риски, не вызывают сомнений преимущества использования облачных технологий для долговременного архивного хранения электронных документов. Профессиональные центры обработки данных в рамках своей базовой функциональности автоматически обеспечивают решение в этом направлении целого ряд задач: контроль сохранности носителей и целостности данных, их резервирование и восстановление, в том числе с использованием распределенных геолокаций, технологическое обновление аппаратно-программной среды.
При наличии общих облачных сервисов различные организации могут совместно использовать специализированные инструменты обеспечения долговременного хранения, такие как управление форматами, миграция документов при устаревании форматов, уничтожение документов по истечении срока хранения, оперативный доступ пользователей к документам. В качестве примера коммерческого облачного сервиса, ориентированного на долгосрочное архивное хранение, можно привести решение Amazon S 3 Glacier, которое обеспечивает повышенный уровень надежности – 99,999 999 999 %, резервное копирование, контроль целостности и автоматическое самовосстановление, оперативность работы с архивными документами (быстрое извлечение, работа с документами непосредственно в облаке), соответствие всем распространенным международным нормативным требованиям безопасности архивной информации; поддерживает в облаке 3500 специализированных программных продуктов обеспечения долговременного хранения.
Сегодня проблема сохранения электронных документов как никогда актуальна для отечественных архивов. В рамках национальной программы «Цифровая экономика» перед Росархивом поставлены задачи обеспечения долговременного хранения электронных документов и создания центра хранения электронных документов. Автор уверен, что изучение и анализ мирового опыта в этой области позволит более эффективно подойти к решению указанных задач.
Календарь мероприятий
7 000 компаний