- 信息时间:2021-10-11 08:32
- 浏览次数:
钱毅 马林青
作者单位:中国人民大学信息资源管理学院、中国人民大学电子文件管理研究中心
【摘要】档案描述是档案资源管理的关键问题。随着档案对象从模拟态到数字态再到数据态的逐步演进,所需档案描述标准也发生相应变化,建立描述标准与档案对象态别之间的匹配关系变得尤为重要。以档案态别为视角,对模拟态、数字态、数据态对象分别对应的档案描述标准进行了梳理,提出了不同态别档案对象所需描述标准的功能定位和技术路线,呈现了描述标准随档案对象态别同步演进的发展脉络,并对三态并存状况下档案描述标准的开发和利用提出了建议。
关键词:档案描述标准;模拟态档案;数字态档案;数据态档案
档案描述是对档案对象各类属性进行的抽取和表达。档案在数字空间中如何描述,既是它们的存在形式,也决定了它们将被如何应用,因而描述问题是档案资源管理中的核心与关键问题。影响档案描述规格的影响因素很多,如档案的门类、形式、形成领域乃至功能预期等。一方面,文件形成领域技术环境的变迁导致档案对象发生态别变化(即档案对象从模拟态到数字态再到数据态演进,系统论述详见笔者相关论文[1]),不同态别空间对档案对象的利用和解析程度也大为不同。另一方面,数字转型的深入使得描述标准也在同步演进,总体表现出细颗粒化、数据化、富语义化等特征。为了避免描述不足或过度描述,需要建立不同档案对象与描述规范之间的匹配关系,以便构建相应的数据基础设施(如目录数据库、本体库、知识库)。整体上看,从单纯的规格描述到支持推理和语义搜索的逻辑关系都属于描述范畴,但当前学界尚未对这些描述范畴在具体的档案对象空间中是如何发生、演变与发展等问题做出完整回应。
本文拟从档案态别视角对档案描述标准进行梳理,考察不同态别对象描述标准的功能定位和技术路线,呈现描述标准随档案对象态别同步演进的发展脉络。
1 文献综述
1.1 档案描述标准的理论研究与实践探索
理论研究方面,张正强对现代档案著录与电子文件元数据领域进行了较为全面与深入的研究。他认为随着“机读档案”的出现,档案工作者必须从现代档案著录的角度来审视档案著录的时间、空间与结果,在分析GB 3792.5—85《档案著录规则》局限性的基础上提出了档案多级著录规则。[2]以此原则为指导,他主持开发了旨在实现档案目录信息交换与共享的基础性标准GB/T 20163—2006《中国档案机读目录格式》。张正强最早在国内对ISO 23081-1:2006《信息与文献 管理文件元数据 第1部分:原则》这一电子文件管理元数据顶层框架设计的基础性标准进行了系统介绍[3],并从功能、基本结构、需求分析方法与保证原则、国际标准化、语法与语义描述的标准化[4],以及如何建立基于本体的电子文件元数据以助力智慧档案馆建设[5]等方面对电子文件管理元数据展开了系统研究。此外,刘越男、钱毅等针对电子文件元数据的封装策略[6]、面向长期保存的元数据模型构建与互操作实现[7]、注册[8]等进行了专项研究。
随着语义网技术的逐步成熟和信息资源利用朝着交换共享、集成检索方向发展,档案著录也开始转向知识化、语义化。段荣婷主张通过语义置标实现知识组织系统(SKOS)系统化与规范化控制,推动档案主题词表、分类法等知识组织系统的语义网络化应用。[9]ICA 在2016年推出了面向未来的档案描述系列标准《背景中的文件》(RiC),该标准搭建了将档案描述数据融入语义网的桥梁,有助于实现档案描述的关联数据化。[10]
实践探索方面,安徽省档案馆黄玉明借鉴维多利亚州电子文件管理策略(VERS)系列标准规范,主持开发了DA/T 46—2009《文书类电子文件元数据方案》,并将其应用于安徽省电子文件中心的建设实践。此外,他还对国际文件/档案及相关资源元数据源流与系谱进行了溯源与归纳,提出通过科学定位、结合实践、制订通用规范和系列标准的方式引领中国电子文件及相关数字资源元数据体系的构建。[11]国际方面,作为行业最佳实践之一,澳大利亚维多利亚州公共文件办公室(PROV)于2017年发起数字档案馆项目,修订了公共文件的描述方法,通过扩展档案控制模型(ACM)实现同其他组织机构的元数据共享与交换。[12]
1.2 文献描述标准的数据化转型
语义网环境下,整个文献领域都在经历由传统文献编目体系向资源编目体系的转型,尤其是图书馆领域已经积累了较多的转型经验。近年来,图书馆的文献描述标准处于迭代的关键时期,文献描述工作的理念与方式经历了从“数字化到数据化”的转变。[13]延续使用了五十余年的机读目录(MARC)由于其封闭性、粗粒度性以及记录结构的单一线性等局限,已经无法适应数字时代关联数据化利用需求,《英美编目条例(第二版)》(AACR2)编目规则也难以指导现代技术环境下书目数据的编目工作,因而逐步被新的支持关联数据的书目框架格式(BIBFRAME)和内容标准RDA取代。BIBFRAME旨在提供基于Web的关联数据标准的转换路径,推动资源编目体系全面转型和创新。[14]瑞典国家图书馆于2008年首次将书目数据发布为关联数据,并与世界上最大的多领域知识本体之一DBpedia建立连接,标志着图书馆书目数据真正开始融入网络环境中。[15]
总体而言,档案界对描述标准的研究主要集中在著录与元数据规范的制订和扩展上,近年来虽然有一些对档案描述关联化、语义化的理论研究和实践尝试,但数量少、规模小。相较于数据化技术在档案资源管理中的应用与前景,档案界对档案描述标准的实践探索整体上还较为滞后,亟需丰富与全面提升描述标准,满足新型档案对象管理与深度服务的需求,有必要从档案对象的模拟态到数字态再到数据态演进的整体视角出发,系统梳理档案描述标准的发展脉络,考察其演进规律,开发和利用相应的档案描述标准,提升档案资源科学管控和应用水平。
2 档案对象态别与描述标准的同步演进关系
基于档案对象的物理信号与语义表达的不同特点,笔者将档案对象划分为模拟态、数字态和数据态三种形态。其中,模拟态对象具有信号与语义连续的特点,数字态则信号离散、语义连续,数据态在信号和语义两方面都呈现出离散的特点。[16]不同态别档案对象需要与之相匹配的描述标准,档案描述标准的升级换代与档案态别演进基本同步。
2.1 档案资源空间定位决定总体演进方向
描述工具从本质上取决于对档案资源空间的认知定位与功能需求。当前,我们对于档案资源空间的认知正在经历将档案视为业务记录的馆藏空间、视为留存记录的证据空间、视为历史积累的内容与知识空间的演变之中,存在馆藏观、记忆观与数据观的不同认知[17],这与三态对象管理空间的内在定位基本吻合。
馆藏空间管理需要的描述支持相对简单,诸如编码与分类标识等形式特征的描述就足以支持整序功能。证据空间维护则需要较为完整地反映电子档案的诸多背景因素,加之多元功能的叠加,导致相对复杂的元数据表示方式。知识空间构建需要大规模积累内容表达,偏重于语义抽取,需要更复杂的表达语义认知的工具,从而将档案馆藏展现为一个相互联系的、多维度的知识空间。以图书馆为例,其描述标准也正处于从文献空间描述向知识空间表达的进程之中。图书馆界最初将图书馆视作文献空间,通过类似AACR2的标准去描述和揭示文献,以实现对文献空间的管理和利用。[18]后续则将图书馆视作相互联系的各类实体的空间,通过RDA等描述工具来管理这些实体对象的类型、属性与关联。因而,可以认为图书描述标准存在从基于结构化描述的MARC到基于关联数据的RDA与BIBFRAME规范的演进路径。[19]
2.2 不同态别档案管理要求引发描述标准变化
三态对象核心特征不同决定了描述标准不同。三态的核心区别在于物理信号与语义信息的离散和连续性表示各不相同,信号离散意味着必须解决软硬件依赖,语义离散意味着必须进行相关语义描述。这些差异直接导致各态别档案的描述标准需要解决的核心问题不同,因而在描述内涵、形式、复杂度上都有不同表现。三态对象管理空间定位不同导致其基础管理目标不同,模拟态对应的是馆藏空间,重在对形式和核心内容特征进行表达的著录标准是该态别的基础描述标准;数字态对应的是证据空间,需要具备相对复杂要素框架的元数据规范作为基础标准;数据态对应的知识和内容空间需要更为抽象的面向语义和关联的规范作为基础,甚至要求描述规范具备一定的语义搜索、逻辑判断与推理能力。总之,档案描述标准因由管理空间定位的变化,在总体上呈现出向细颗粒度、富语义化、知识表示等方向发展的态势。
3模拟态描述标准:馆藏控制,维护实体有序
模拟态对象空间管理主要功能在于维护实体管理,因而在此阶段档案界主要通过制订系列著录标准,以实施对馆藏档案的识别与管理。
3.1 主要标准概述
按经典定义,著录是对档案内容与形式特征进行分析、选择和记录的过程,从《档案著录规则》(DA/T 18—1999)罗列的著录项分析,绝大部分可归结为形式特征,这与模拟态以载体为中心的管理需求密切相关,符合对实体管理的基础需要。内容特征相对较少,仅包括主题词、分类号、提要等项,而这些项目的著录在实际工作中往往更加简化,如主题词著录往往用关键词代替,降格以求。从著录标准源流看,档案著录规则源自国家标准《文献著录总则》(GB 3792.1—83),并因档案的基本门类差异衍生出系列档案著录规范,包括:
DA/T 8—1994 明清档案著录细则
DA/T 17.1—1995 革命历史档案著录细则
DA/T 20.1—1999 民国档案目录中心数据采集标准——民国档案著录细则
DA/T 23—2000 地质资料档案著录细则
GB/T 50323—2001 城市建设档案著录规范
DA/T 30—2002 满文档案著录名词与术语汉译规则
DA/T 51—2014 电影艺术档案著录规则
其他……
此外,ICA也制订了系列通用的国际档案著录标准,包括《国际档案著录规则(总则)》(ISAD/G)、《国际档案权威记录(机构团体、个人与家庭)著录规则》(ISAAR/CPF)、《国际档案职能著录规则》(ISDF)及《国际档案馆藏机构著录规则》(ISDIAH)等,这些标准都已成为国际档案著录的最佳实践,共同推进了档案著录信息的交换与共享。
3.2 功能定位于维系空间有序与资源完整性
模拟态描述标准核心功能聚焦于维系有序的馆藏空间,通过对馆藏档案的载体控制达到馆藏空间控制的基本目的,因而著录标准对档案形式特征尤为重视乃理所当然。由于模拟态重在资源完整性控制,依托资源自身层级进行多级著录,以维系实体资源间最初级(亦可能是最根本)的关联关系。具体做法上,通过对分类、编码等核心著录项的控制,指导实体分类与排架,构建有序空间,实施对不同层级实体对象的整序管理。
3.3模拟态标准通常采用结构化表示方式
良好的著录基础有助于输出多种馆藏检索工具,如全引目录、专题目录、各类索引等,实现对馆藏档案的初级智能控制。事实上,著录规则在相当长的时间内就是服务于面向手工操作的著录卡片制作的。在计算机环境中,档案资源机构普遍采用数据库进行著录信息的管理与集成,在技术路线选择上,著录规范可以很好地适用于关系数据库技术,RDBMS(关系数据库管理系统)具有较高的技术成熟度,提供了多种内置的约束与实用工具,能够对档案著录数据进行有效的质量控制,因而数据库技术被普遍视作档案资源管理的底层信息组织技术。同时,关系数据库的结构化特性也有助于开展大规模目录数据集成,目录数据库建设几乎是所有机构开展档案信息化的起步阶段,进而推进联合目录、目录中心等建设工作,实现特定范围内的档案目录数据共享。
4 数字态描述标准:建立信任,维系证据价值
从“白纸黑字”的模拟态环境变迁到虚拟的数字态空间,保证在数字空间的可读可信成为电子档案管控的基准目标。相应地,数字态描述标准需要维系由于信号离散带来的软硬件依赖问题,需要关注支撑可信环境所要求的前端控制、全程管理及文件连续体理念的具体实现,客观上同样需要提供大量的描述数据,以维系电子档案的信任空间。
4.1主要标准概述
数字态档案对象描述标准的主要目的是在数字环境下维系电子档案的信任空间,无论是其描述的特征方面,还是具体的元素数量,相较于模拟态档案描述标准都有了很大跃升。数字环境下围绕信任的要素复杂而多元,基于简单的形式和内容特征的著录标准已不适用于电子档案,为此电子档案描述规范引入了计算机领域中的元数据概念。元数据概念的引入不单是名称的变化,同时携带了与大量元数据概念相匹配的管理标准和技术规范,包括元数据自身描述方法(如ISO/IEC11179)、元数据描述框架(如XML)、互操作性管理等,使之更适合在计算机环境中进行表达,便于相关系统的开发和使用。元数据规范较之著录标准要复杂很多,形式上存在以对象描述为主的属性类标准、用于结构化表示和交换使用的封装类标准、用于实施元数据管理的方案类标准等。此外,元数据亦可分为支持文件形成业务的业务元数据、支持管理活动的管理元数据和支持长期保存的保存元数据,根据针对业务的差异也有通用元数据和专门元数据之分。国内外较典型的元数据规范包括:
DA/T 46—2009 文书类电子文件元数据方案
DA/T 54—2014 照片类电子档案元数据方案
DA/T 63—2017 录音录像类电子档案元数据方案
EJ/T 1224—2008 核电电子文件元数据
EAD 编码档案著录标准
PREMIS 保存元数据:实施策略
NARA发布的《永久电子文件移交的元数据指南》[20]
NAA发布的《联邦政府机关文件管理元数据标准》与《电子文件元数据属性参考集合》(AS/NZS5478:2015)[21]
其他……
此外,一些有影响力的元数据事实标准往往伴随功能需求标准一并推出。如美国国防部的《电子文件管理软件应用系统设计标准》(DOD5015.2-STD)、欧盟《电子文件管理通用需求》(MOREQ2010)都将元数据方案和功能需求密切结合,MOREQ的测试用例中也嵌入了元数据要求,并通过软件开发来实施元数据的规范。另外,还存在由模拟态标准改造提升而成数字态描述标准的情况,譬如《中国档案机读目录格式》(GB/T 20163—2006)就是将手工环境下的著录规则提升到数字环境下机读的格式标准。
4.2 数字态标准以面向单轨管理、支持多元功能为核心
数字态档案描述标准的功能主要定位于维护电子档案在数字空间的凭证价值,通过构建相对完备的元数据要素框架,覆盖电子档案四性维护在内的多元功能,为构建信任空间以及单轨制管理提供描述层面的支撑。
数字态描述标准是支撑四性管理的规范基础,覆盖电子档案的多元功能要求。数字态描述标准应有效支撑对电子档案真实、完整、可用和安全的四性管控,支持对电子档案描述、封装、格式管理、技术管理、数字化、数字版权管理、数字认证等方面的功能需求,注重元数据规范的全面性、全程性、实时性、动态性、自动化、结构化、多级性[22],因而元数据描述的规模和复杂度自然大幅提升。比如ISO 23081-1就提出了包括文件、责任者、业务、法规四元组在内的元数据概念框架模型,以此为基础提出标识类、描述类、利用类、事件计划类、事件历史类和关系类六大类属性元数据,通过支持这些架构的元数据规范来实现ISO 15489所倡导的四性管理目标。《文书类电子档案四性检测方案》(DA/T 70—2018)标准中,就将元数据的检测作为四性检测的主要内容。
数字态描述标准的核心在于确立元数据要素框架。由于数字态空间管理重心转移到以内容为主的逻辑结构上,人们更关注电子档案的形成环境、逻辑关联与技术背景,需要对数字态档案对象逻辑结构本身有更为精细的认识,因而在描述要素上需要突破著录标准有限的内容和格式特征,建立符合数字态管控要求的要素结构。如ICA提出了电子文件内容、背景、结构三要素,InterPARES提出了包含七要素的文件分析模板,匹兹堡大学BAC项目则将电子文件区分为处置层、条款与条件层、结构层、背景层、内容层、使用历史层等六个层次。[23]这些要素框架都力求构建可溯源的业务场景、可还原的技术环境、可认证的技术手段,由此形成可信任环境。
总体来看,数字态描述规范的功用在于通过背景控制、环境控制、技术控制和内容控制,实现对电子档案的信任保障。
4.3数字态标准采用可扩展的弹性描述技术路线
复杂化的电子档案元数据要素结构需要更为弹性的描述结构相匹配,因而元数据规范普遍采用XML作为其默认描述格式。XML可以表示复杂的元数据属性(如在结构化方式中难以扩展表示的重复性元素),在句法结构上支持采用ISO/IEC 11179标准进行表达。XML文档可以独立描述数据结构规格,包括以DTD与Schema结构和Namespace等的链接方式,同时也支持将元数据与所描述的数据对象捆绑在一起作为单独文件存在,这为以封装包形式保存档案对象奠定了格式基础。XML格式支持灵活弹性的层次结构也与档案对象的层次性直接呼应,其格式规范的开放性和自描述等功能都使得XML在数字态对象元数据规范中大规模应用。
数字态对象复杂的多要素管理需求客观上要求元数据规范在构建时遵循组配和/或模型扩展的构建思路。数字态对象元数据要素呈现的普遍多元弹性特征导致描述框架发生变化,由于需要表达的要素较多,要素间关系不再是简单的线性罗列,而存在比较复杂的组配关系。在表达形式上,传统档案著录规范中简单的大项和小项方式难以为继,通常采用分块分面的组配方式来进行。ISO 23081-1为通用电子文件元数据提供了元数据分面组配的指导标准,提出了涵盖法规、业务、文件、人员四要素在内的元数据分析模型,通过对这些元数据板块的组配实现对电子文件形成元数据的详尽描述,满足认证、追溯、责任管理等方面的需要。目前,多数元数据规范都是依托这个思路来设计的,如DA/T 46—2009、DA/T 54—2014、DA/T 63—2017等。ISO 14721(即OAIS模型标准)构建了经典的数字存档对象信息模型,可用于数字资源对象长期保存相关元数据规范设计。该模型将元数据抽象划分为表征信息(含结构信息和语义信息)和保存描述信息(含参引信息、来源信息、背景信息和固化信息),为数字态对象保存元数据的开发提供了框架指南,PREMIS就是基于OAIS模型开发的用于实施的保存元数据规范。GB/T 29194—2012在电子文件管理系统开发中也明确提出需要建立文件-文档-组件在内的核心信息模型。
数字态元数据规范支持在元数据层面实现关联管理。元数据概念模型的构建、元素组织的模块化和组配关系等都可视为强化关联的手段,对于维系数字态对象立体、动态、长链的连续管理非常必要。电子档案管理活动中普遍存在的跨系统管理、互操作性管理、可信管理等都需要追踪管理的操作过程,涉及人员、业务、资源、技术、规则等核心要素,因而元数据之间的关联管理较之模拟态的管理复杂很多。如澳大利亚近期推出的档案控制模型就是基于强大的元数据规范构建的(如图1所示)。[24]该模型与ISO 23081-1 的元数据框架无缝契合,支持对文件及其关联文件进行创建、描述、保存和管理,其原则中就明确指出需要将元数据映射到该模型。

图1 NAA的档案控制模型
5 数据态描述标准:语义控制,面向知识服务
数据态档案对象的空间属性主要是内容空间和知识空间,其描述标准要解决的核心问题是如何重构离散数据的语义,描述重点与难点在于如何表达将数据整合起来的规则和语义。这些规则和语义的描述具有较强的专业性,不同数据态对象几乎都需要独立开发各自的描述规范,这意味着需要了解特定的学科领域,面向特定的语义场景进行特定数据态对象内涵及其关联的表达。
5.1 当前典型数据态标准简介
比较典型的数据态标准包括数据库、三维设计模型和档案描述本体化的描述规范等,其中关系数据库的描述标准比较成熟,有较强的理论准备和一定的实践基础,目前已有SIARD(Software Independent Archiving of Relational Databases)和DBML(Database Markup Language)用于数据库对象描述。SIARD由瑞士联邦档案馆于2004年发布,并于2013年被e-Governance Standards作为标准采纳,2008年欧洲PLANETS项目也将SIARD作为存档关系型数据库的推荐格式。DBML旨在制订一种基于XML的用以描述数据库的标记语言标准,使用简单可读的标签,并将数据存储在轻量级文件中。DA/T 57—2014《档案关系型数据库转换为XML文件的技术规范》是我国第一款面向数据态对象进行规范描述和管理的标准,其基本思路与SIARD一致,旨在实现数据库归档文件的格式开放以及独立于软硬件保存。
设计领域的三维模型对象由于存在多学科的系统集成和协同需求,在归档管理和后续保存方面迫切需要有一个通用的、中性的模型描述方法以摆脱对特殊软件的依赖。目前应用较好的是基于STEP(Standard for the Exchange of Product Model Data,产品模型数据交换标准)标准体系进行设计数据交换,从而在遵循STEP的不同环境中重现三维对象,达到一定程度保存的目的。
除了原生的类似数据库、三维设计模型数据态对象外,ICA目前正在拟定的标准《背景中的文件》(RiC)为描述本体的标准化提供了概念模型,该模型通过对既有档案内容进行本体描述,从而将档案信息数据化、语义化,构造等同于数据态的语义空间,可视为相对通用的“数据化”标准。
5.2 功能定位于依赖解除与语义重建
数据态描述标准的本质是通过依赖解除和语义重建,支持实现离散数据向连续语义的转换,这也是数据态数字资源长期保存的本质。语义表达可视为粘合数据的方式,不同数据态对象的语义描述可能完全不同,笔者曾提出过数学描述、组配逻辑、业务规则、流程定义、模型定义等语义表达方式。[25]由于不同的语义表达方式本身的可描述性存在巨大差异,数据态描述标准的专业分化不可避免。
第一,逆工程化。关系数据库对象描述原理。关系数据库描述原理在于摆脱对于特定DBMS的依赖,通过“逆工程化”手段将拟长期归档的数据库解析为开放的半结构化文件。如SIARD将关系型数据库转换为一组XML以及XML Schema文件,将数据库用户、角色、权限、数据表结构、数据表关系、视图、存储过程、约束、索引、触发器等对象信息“逆工程化”解析后存储表达在XML文件中,后续可以将这些文件保留的主表数据恢复到RDBMS中。SIARD保存作为数据主体的关系表及其关联关系,而非保存用于展示形式和交互的相关代码。技术规范方面,SIARD采用Single ZIP64来封装XML和二进制大对象,其中字符集采用UTF-8,对象描述采用SQL-1999标准,实现了数据库核心对象和数据的高规范化表示。为此,瑞士国家档案馆推出了免费的SIARD Suite 软件用于归档关系型数据库,目前已在全球50多个国家使用。[26]澳大利亚维多利亚州使用该软件成功地将MS Access、SQL Server、MySQL和Oracle转换为SIARD,并将.siard文件“重新注入”到SQL Server、MySQL和Oracle中。[27]
第二,从结构描述到功能复现。三维模型对象描述标准原理。STEP标准是ISO制订的一个正在完善中的“产品数据模型交换标准”,寄望通过一种不依赖具体系统的中性机制,实现产品全生命周期的信息表达和产品数据交换和共享。由于其先进性、实用性和扩充性,STEP标准一经推出就在机械、汽车、飞机、电器、船舶等行业得以应用。STEP基于EXPRESS语言进行扩展,得到了主流CAD软件的支持。从内容组成上来看,STEP标准由描述方法、实现方法、集成资源、应用、一致性测试五部分组成,在层次结构上,STEP标准包括物理层、逻辑层、应用层等结构,各层互相独立,分别实现一种相对独立的功能,各层采用各自最合适的技术来实现。LOTAR(LOng Term Archiving and Retrieval,长期存档和检索)项目采用了STEP系列标准,构建了一个支持产品数据从产生到最终归档的完整的标准体系,这些标准目前已经在欧洲航宇、斯奈克玛、达索航空、空客的型号研制中得到应用。[28]
5.3 数据态描述标准发展技术路线
数据态描述标准采用的技术路线总体上是沿着静态对象描述、动态关联表示及支持后续应用的方向发展的。
第一,开发面向不同领域对象的专业描述语言。数据态对象首先需要开发针对自身对象的专业描述语言。应当认识到,数据态作为新型复杂对象,几乎都有其复杂的内部对象体系,对这些对象本身的描述,需要深入该专业内部进行梳理,达成专业共识后方能开展描述,复杂数据态对象还需要建立在多领域专业协商的基础上,这也是目前数据态描述语言(或格式)尚不多见的主要原因。
以数据库为例,关系数据库和RDBMS是一个复杂的产品。从技术上讲,它包括表、视图、索引、触发器、存储过程等十数个典型对象,因而需要确定将哪些对象予以描述归档。目前,SIARD专注于保存主数据,只支持核心SQL1999元素的存档,对过程和功能的记录最少,不支持功能上的长期代码保存。目前SIRAD 工具的发展,也在讨论对于特定对象是否纳入支持范畴,有些类似常规环境中对于归档范围的讨论,如对于触发器、检查约束、UDTS等的就尚在讨论之列。STEP提供了专用的描述语言EXPRESS用于描述设计模型,用于说明某领域的对象、对象所具有的信息单元以及对对象的限制和操作许可。[29]EXPRESS具有类型、表达式、语句、函数、过程等功能,采用了面向对象技术中的继承机制等技术,通过一系列的说明来建立产品数据模型。[30]
第二,明确针对不同领域对象动态关联的表示。仅有静态对象的描述还远远不够,数据态描述语言还需要重点描述对象之间的复杂关联关系,为语义的保存乃至重建提供基础。在不同数据态内部,关联自身的表达方式千差万别,需要依赖专业手段进行表达。典型的如数据库的实体联系图、主键外键约束等;STEP的层次结构机制;社交媒体数据背后的社交网络图等皆属此列。描述本体标准RIC-CM中就不厌其烦罗列了描述实体可能存在的13类计78种具体关系形式。在表示关联的手段上,目前主要存在反推、正演、形式化描述等方法。
反推:数据库通过逆工程化来反映实体关联关系(ER)。从保存的角度看,就需要逆向工程思维,核心是从现有的这些零部件中尽可能反推到“现实世界”。SIRAD通过抽取核心,重构最为关键的数据表和关联,从而达到保存数据库的目的。通过逆工程化的方法在数据库管理中比较常见,是在数据管理中了解数据库关系的主要手段,几乎所有规模DBMS都提供了关系图进行逆工程化的展示手段,正因如此,SIRAD能在相对初级的对象重构基础上实现更为重要的是逻辑重构,在结构保存的基础上实现约束保存。
正演:多领域数据交换共享STEP。STEP的层次结构中“集成资源”集中体现了对于基本对象的组合关系。集成资源层可利用EXPRESS语言描述的实体、类型、功能、规则和参照的集合体,实现对不同应用环境下产品数据模型表达的共性特征进行有效描述,形成资源构件,并采用面向对象的方法,在资源构件基础上经过修改和增加约束、关系及属性来支持实际的应用,实现资源构件的共享。
形式化表达:构建领域本体概念模型RIC-CM。档案描述本体化及其标准化意义重大,它支持将存量的档案著录数据提升适用于语义网环境,支持构建基于RDF(资源描述框架)的档案数据集,使档案及其描述信息发布于语义网,成为关联开放数据,支持集成检索利用。[31]

图2 RIC中的实体-关系概念模型
第三,支持数据态对象后续功能开发与应用。数据态描述标准除了静态对象和动态关联的描述外,还需要面向应用场景进行必要的功能支持。如STEP支持构建面向长期存档和检索的完整解决方案,采用STEP存档三维设计模型不仅仅可以初步解决长期存档的问题,更重要的是可以开展系列应用工具的研发,如模型规范检查工具、模型比对工具、轻量化工具、三维模型搜索工具等,构建包含数据转换、映射、传输、验证等多方面需求的存档应用系统。LOTAR作为开发、发布和维护数字产品和技术数据(如3D、CAD/CAM和PDM数据)长期归档标准的项目,就选择了STEP作为中性数据类型格式,明确“将STEP作为数据格式的决定是基于它是当前最先进的开放格式”。[32]RIC则直接助力于打造从标引著录到本体描述乃至知识表示的相对完整的信息链路径,通过将既有的著录数据转化为本体描述,在此基础上支持知识图谱生成等功能,满足智慧档案馆建设中对于智识和智联的基本需要。
6 档案描述标准开发建议
当前几乎所有档案机构都面临三态档案对象共存的资源现状,因此判别档案资源态别,针对性地储备开发和利用对应的描述标准,对于档案资源的科学管控具有重要意义。
首先,应当基于整体资源观储备开发描述标准,重点开发数据态描述标准。树立资源与态别的匹配意识,基于档案态别的空间属性,有的放矢地储备开发相应描述标准,构建相对完备的立体式的描述标准体系,满足档案机构多态并存的资源管理需求。目前,模拟态描述标准比较完备,现有系列著录标准已足以支撑模拟态对象管理需求。数字态描述标准也基本具备体系规模,尤其电子档案主要门类的元数据标准都已出台了行业标准。数据态描述标准则最为薄弱,总体处于初建阶段,其对象的专业性导致通用数据态标准缺失,需要针对特定对象进行攻关,加强与专业主管部门的研究合作,以适应后续大量数据态对象的管理需要。
其次,三态描述标准需要同步协同发展,满足多态管控需求。描述标准是档案资源进入数字空间的“入口”标准,需要与档案资源的管理特质相匹配,如原始性、完整性等特点在三态描述标准中的具体设计,尤其注意同一要求在不同态别空间的协同与衔接关系。譬如档案完整性在不同态别描述标准层面的侧重就有所不同,模拟态着重在业务完整性,数字态在此基础上增加了技术完整性,数据态则较为充分的表达了关联完整性。
再次,树立描述标准之间的兼容意识,提供转化通道。需要在静态描述对象的基础上,提供不同档案对象态别之间转换的兼容通道,从而实现多态资源的兼容管理。当前图书馆领域在进行从MARC记录中自动抽取关联数据和层级关系的探索,将 MARC 记录转换为三元组,抽取出书目记录中包含的各层次作品信息,构造面向知识服务的关联数据。[33]在工具层面上,主要支撑模拟态和数字态的关系数据库实现面向数据态的图数据库的转换,图数据库软件Neo4j 就支持从规范化的关系数据库中提取关联数据直接形成关系图。
总之,档案描述标准伴随三态档案对象空间的同步发展,朝着细颗粒度、多要素框架、富语义化、知识表示等方向发展,支撑档案管理功能从实体管理走向信任管理和知识管理,需要在保障最基础的实体管控与存证价值的同时,为未来丰富多彩的内容管理和知识服务预留空间、提供支撑。这注定是一条艰难之路,亦是一条必经之路。
注释与参考文献
[1][16] 钱毅.技术变迁环境下档案对象管理空间演化初探[J].档案学通讯,2018(2):10-14.
[2] 张正强.论中国电子档案著录标准化的发展方向[J].图书情报知识,2004(5):35-38.
[3] 张正强.论电子文件管理元数据顶层框架设计的基础性标准比较[J].档案学通讯,2008(5):48-55.
[4] 张正强.论电子文件管理元数据的需求分析方法与保证原则[J].档案学通讯,2006(5):64-68.
[5] 张正强.基于本体的电子文件元数据:智慧档案馆建设的关键与核心[J].山西档案,2019(5):5-12.
[6] 刘越男.对电子文件元数据封装策略的再思考——由VERS标准的变化引起的研究[J].档案学研究,2019(4):116-123.
[7] 刘越男,杨建梁.面向电子文件保存的统一元数据模型的构建[J].中国图书馆学报,2017,43(2):66-79.
[8] 钱毅.论电子文件中心元数据方案的管理策略[J].档案学通讯,2012(6):76-79.
[9] 段荣婷.基于简约知识组织系统的《中国档案主题词表》语义网络化应用研究[J].现代图书情报技术,2010(10):33-42.
[10][31] 段荣婷,马寅源,李真.国际文件/档案著录标准化前沿与趋势展望——基于国际最新著录标准ICA RiC的研究[J].档案管理,2018(1):28-35.
[11][23] 黄玉明.文件/档案及相关资源元数据再研究——国际源流与中国体系构建[J].档案学研究,2010(6):59-65.
[12][24] PROV. Archival control model[EB/OL].(2019-07-04)[2020-04-05]. https://prov.vic.gov.au/recordkeeping-government/a-z-topics/archival-control-model.
[13][19] 胡小菁.文献编目:从数字化到数据化[J].中国图书馆学报,2019,45(3):49-61.
[14] 王景侠.书目格式的关联数据化发展及其启示:从MARC到BIBFRAME[J].图书馆杂志,2016,35(9):50-56.
[15] 邹美辰,胡瀛.欧美国家图书馆书目数据关联化案例研究[J].图书馆理论与实践,2016(11):61-66+70.
[17] 钱毅.在“三态两化”视角下重构档案资源观[J].中国档案,2020(8):77-79.
[18] 刘炜,胡小菁,钱国富,等.RDA与关联数据[J].中国图书馆学报,2012,38(1):34-42.
[20] Metadata Guidance for the Transfer of Permanent Electronic Records [EB/OL].(2015-09-15)[2020-12-05]. https://www.archives.gov/records-mgmt/bulletins/2015/2015-04.html
[21] Australian Government Recordkeeping Metadata Standard [EB/OL].(2015-01-01)[2020-12-05].https://www.naa.gov.au/sites/default/files/2019-09/AGRkMS-Version-2.2-June-2015_tcm16-93990_1.pdf.
[22] 冯惠玲,刘越男. 电子文件管理教程(第二版)[M].北京:中国人民大学出版社,2017: 367-370.
[25] 钱毅.数据态环境中数字档案对象保存问题与策略分析[J].档案学通讯,2019(4):40-47.
[26] SIARD Suite [EB/OL].(2021-01-07)[2020-12-28].https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html.
[27] Public Record Office Victoria [EB/OL]. (2016-12-26)[2020-12-05]. https://prov.vic.gov.au/sites/default/files/files/Govt%20Services%20General/SIARD%20Research%202014-15%20Report.pdf.
[28] 董志茜,武斌,薛白石.中航工业3DCAD数据归档方案研究[J].机电兵船档案,2016(5):62-66.
[29] 梅敬成,李建勋,何彦田.基于STEP标准的三维模型数据长期存档系统[J].电子技术与软件工程,2019(22):139-141.
[30] 赵付青,余冬梅,杨亚红.STEP标准实现方法的研究与应用[J].工程图学学报,2002(4):1-8.
[32] Long Term Archiving and Retrival[EB/OL].[2020-12-05].https://lotar-international.org
[33] 胡小菁,高红.CNMARC书目记录的关联数据转换:作品层分析[J].图书馆杂志,2019,38(1):74-82.
Analysis of the Characteristics and Evolvement of Archival Description Standards
from the Perspective of Three-State of Archival Objects
QIAN Yi1, MA Linqing2
(School of Information Resource Management, Electronic Records Management Research Centre, Renmin University of China, Beijing 10872, China)
Abstract: The description of archives is a key issue in the archival resources management. Along with the evolution of archival objects from analog state to digital state, and then to data state, the required description standards change accordingly, the establishment of the relationships between description standards and archival objects on different states is becoming crucial. Based on the perspective of archival states, the paper teased out the corresponding description standards of three-state archival objects, analyzed their functions and technology routes, and presented the evolution thread between description standards and different states of archival objects. The paper also proposed suggestions on the development and utilization of description standards in the circumstances of co-existing of three-state.
Keywords: Archival description standard; Analog state; Digital state; Data state
来源:2021.09.29 档案那些事儿微信公众号
原载于:《档案学通讯》2021年第5期