公务员期刊网 论文中心 正文

谈电子文件格式可持续性风险评估

前言:想要写出一篇引人入胜的文章?我们特意为您整理了谈电子文件格式可持续性风险评估范文,希望能给你带来灵感和参考,敬请阅读。

谈电子文件格式可持续性风险评估

摘要:格式可持续性是确保电子文件永久保存和长期可读的关键因素。本文介绍了国外典型的文件格式风险评估项目,总结了评价电子文件格式可持续性的7个关键指标,包括开放性、采纳程度、自描述性、稳定性、外部依赖性、技术保护机制、版权和专利,并对这些指标做出了说明。

关键词:电子文件;风险评估;可持续性;格式评价

文件格式是数字资源最重要的属性,决定着数字资源的可用性。在电子文件管理的很多阶段(如选择、获取、保存和访问等)都需要考虑文件格式问题[1]。文件格式可以形象地看成是一种“翻译语言”,它将数字资源存于载体上的二进制代码“翻译”成用户可识读、理解的文件内容。同样的文件内容,不同的“翻译语言”(文件格式)转换出的二进制代码完全不同。档案馆面对的文件格式种类越多,面临的可读性风险越大。正确选择文件格式,事关电子文件的安全保管。对电子文件格式的可持续性进行风险评估,有助于档案馆遴选出适合长期保存的文件格式。

1国外典型的文件格式风险评估项目

1.1互联网长期保存项目

该项目由丹麦国家与大学图书馆和皇家图书馆合作开展,主要通过管控数字格式达到长期保存数字资源的目的,确保在50年或100年后仍可读取和理解数字对象。2004年5月,两家图书馆联合《文件格式对策》(HandlingFileFormats)[2]报告。该报告针对档案数字格式需求展开,指出适合长期保存的文件格式需要具有可读性、原始外观、要素完整、功能完备和保持操控性能等关键属性。报告还重点阐述了评价文件格式未来可用性的几个标准,包括开放性、可移植性、性能指标、退化程度等,并进一步指出了影响文件格式可持续性的重要因素,据此提出了电子文件长期保存的策略。

1.2数字格式的可持续性分析

为实施数字馆藏计划,美国国会图书馆(LibraryofCongress)开展了有关数字格式可持续的研究项目,研究具体内容包括:数字文件格式的战略规划;具有长期可持续性的文件格式选择;长期可持续性格式的维护策略;存在格式风险的文件管理对策及其内容保护[3]。该项目研究成果在《数字格式:可持续性、性能和质量因素》(DigitalFormats:FactorsforSustainability,Functionality,andQuality)报告中,报告重点阐述了确定某种数字文件格式是否具有可持续性抑或存在风险的方法,指出影响馆藏文件格式可持续性的因素分两类:一类是影响所有数字格式可持续性的基本因素;另一类是针对某类数字资源质量或性能的特殊因素。前者包括开放性、采用程度、透明度、自描述、外部依赖关系、专利影响和技术保护机制,这些因素涉及所有类别的数字格式;后者主要针对静止图像、声音、文本文件和视频文件格式等类别。以静止图像格式为例,有关其质量或性能的特殊因素包括渲染能力、清晰度、色彩方案、排版以及是否支持图形效果等。美国国会图书馆还通过其官方网站了具备(或不具备)长期可持续性的数字文件格式,并作出解释说明。同时,还了保管这些格式资源的对策。

1.3文件格式风险量化评估

荷兰国家图书馆从电子文件长期保存这一目标出发,采取风险评估的方式对文件格式的可持续性进行研究,于2008年开发出可量化的文件格式风险评估方法[4]。该方法包含了衡量文件格式可持续性的7个指标,分别为开放性、采用性、复杂性、技术保护机制、自我解释性、稳定性、依赖性,每一个指标下再分解出若干个可应用于所有文件格式的特性。所有指标和特性均被赋予分值,分配给每个指标的分值范围是0—7、每个特性的分值范围是0—2。对数字保存和长期利用构成威胁的特征值将被赋予低的分数值,而对数字保存和长期可用具有重要作用的特征值会获得高分数值。将这种定量评估方法具体应用于某种格式,可以计算出该格式的总分,总分越高,格式越适合长期保存。当然,每种格式的评分会随时间推移发生变化。

1.4风险和优选格式模板

美国国家档案与文件署(NARA)早年间接收了大量来自白宫、各联邦机构、国会的永久性电子档案。为化解风险,并对其原生电子档案的格式状况进行评判,NARA于2014年创建了一个量化的可用格式模板[5]。该模板用于评估移交至NARA的文件格式的适用性,包含37个评估项,这些评估项按照公开程度、采用程度/流行性、透明度、自描述、外部依赖性、许可和专利、使用加密/权限管理七大类排列,每个类别及其评估项的权重各不相同。与上述美国国会图书馆提供的数字格式可持续性分析项目相比,NARA的模板引入了权重概念,并且更具针对性,其评估指标中加入了该格式文件的进馆时间、占馆藏电子档案总量的百分比、格式已流行年数、格式更新情况、格式转换时的内在风险等指标。因此,NARA的模板已被编制档案移交指南的团队所采用,在NARA的移交指南中,所有拟进馆永久保存的格式基于上述评估而被分别标注为“首选格式”或“可接受格式”。而对所有已进馆电子档案,则根据评估状况区分为2种高风险、26种中等风险和42种低风险格式。

1.5数字连续性项目

英国国家档案馆开展的数字连续性项目旨在从可持续性的角度去评价文件格式[6]。该项目制定了评价文件格式的4个标准,即能力方面:业务需求得到满足的程度;质量方面:信息存储的准确程度,包括精确与损失程度;耐久性方面:时间对文件格式的影响程度,包括流行度、稳定性、可恢复性;灵活性方面:格式适应不断变化环境的能力,包括互操作性(现有软件可以访问的格式种类)、可实现性(编写软件与格式交互的难易程度)。每个标准得分范围在0—5之间,通过一个共同的测量尺度来评估、比较不同的格式。如,若需要评估4种电子文件格式,则制作一个分数在0—5的表格,再根据不同的子标准来评估文件格式,确定每个特性的分数,用子标准分数的平均值确定最后的分数,进行比较判断。以上都是从维护数字资源长久保存的角度出发,对电子档案进行风险评价,但各个项目的评估角度、指标与深度有所不同。综合来看,格式风险能够得到量化将更有助于格式迁移工作的展开,降低电子文件长久保管的风险。

2长期保存的电子文件格式风险评估指标

2.1格式开放性

开放性指格式使用者可无障碍地获取用于创建、维护和验证该格式文件的工具、技术规范及说明性文档。开放性包括以下要求:文件的编码、压缩、封装方式等有明确的规范或标准;带有开源的阅读或创建工具;具有公开、完整的技术说明文档。一种文件格式如果公开技术标准,并提供完整的技术说明文档,意味着未来对该格式文件进行解读或重新构建的技术途径是畅通的。而如果能提供开源代码的读写软件,今后迁移、维护该格式文件的成本就要低很多。

2.2格式采纳程度

采纳程度指该文件格式被接受使用的程度。被广泛采用的格式淘汰的速度相对较慢,文件格式被广泛采用主要表现有:存在许多可用产品用于以该格式的创建、操作或内容呈现;Web浏览器或市场领先的内容创建工具提供对该格式的支持;该格式在全球范围被广泛使用,该格式在遗产保护领域(档案、文博、图情等需要长期保管数字资源的行业)普遍认可。

2.3格式自描述性

文件格式的“自我记录”特征主要指文件中包含的描述性信息的多少,这些描述性信息构成“元数据”嵌于文件之中。说明文件属性的描述性信息,可以是关于文件内容的,也可以是关于文件技术或背景信息的。所有文件格式都内嵌部分元数据,因此均有某种程度的自描述特征,但如果某种格式可以在创建过程中自动包含或借助外部工具人为嵌入更多描述性元数据,将来对其的理解就越到位。

2.4格式稳定性

文件格式的稳定性体现在两个方面:格式升级的频度较低和升级后的格式相对之前版本变化较小。具有可持续性的文件格式对外部技术环境的变化有较好的适应性,或者说对技术环境的变化不太敏感。格式经常升级或版本间变化过大,兼容性差,将对文件的长期可用造成威胁。文件格式的稳定性要求该格式的设计具有一定的前瞻性,具有跨平台性和良好的交互性。

2.5格式外部依赖性

一个好的文件格式应该做到不依赖于特定的硬件、不依赖于特定的操作系统、不依赖于特定的软件以及其他外部资源等。格式对某种特定环境或外部资源的高度依赖,会为数字文件的保存和长期访问带来风险。一旦难以重现其所依赖的特定环境,文件内容的读取将变得复杂,甚至根本无法读取。因此只有文件格式保持一定的独立性,才不会处于被动境地,失去其可读性。

2.6格式技术保护机制

技术保护机制是指文件格式中携带有某写技术措施来管控数字资源的使用和权限归属。常见的有密码保护、复制打印保护、数字签名和内容提取保护等。这些措施的设计虽然起到了维护形成者权利的效果,但却有可能影响档案机构对电子文件的有效管理和维护。事实上,为有效保存电子文件,档案部门在必要时需要对文件进行格式迁移或规范化处理,如果某种格式的文件提供了技术保护机制,那么迁移转换过程将无法实施。

2.7格式版权和专利

格式的版权和专利将限制档案机构保存文件内容的能力。虽然解码某种格式的许可证无需太多成本,甚至是免费的,但专利的存在可能会减缓开源编码、解码器的开发。

作者:王扬扬 张照余 单位:苏州大学社会学院