当前位置:首页
>归档栏目>业务新知
“档案数据化”底层逻辑的解析与启示
  • 信息时间:2021-07-27 14:42
  • 浏览次数: 167

【摘要】梳理中文语境下档案数据化内涵的多种理解视角,参照知识元理论提出体现档案学特色的记录因子理论,从记录因子视角对档案数据化的底层逻辑进行深度剖析,进而确定档案数据化的战略定位并提出若干实践建议。记录因子是对人类社会活动的单一维度、最小颗粒描述,是不可分割的独立记录单元,是构成档案内容信息的基本语义颗粒。基于记录因子理论,“档案数据化”是档案管理部门面向人工智能时代的精准化、智能化服务需求,运用数据科学理论与方法驱动档案管理和服务创新的战略框架,包括“档案领域本体建模”“数字档案资源开发”“档案文本结构化”和“业务数据档案化”四种并存互补的实践模式,致力于解决档案内容信息碎片化问题,构建多元主体协同参与的档案数据生态,推动粗粒度档案文档服务向细粒度、智能化档案数据服务转型。

关键词:档案数据;数据化;记录因子;知识元;领域本体

我国学者对档案数据的关注可以追溯到20世纪后半叶的办公自动化时期,通常认为冯惠玲等[1]1992年发表的《档案工作现代化的重大课题——论档案计算机检索的数据准备》一文标志着国内档案数据研究的开端。高晨翔等[2]通过对1992年至2019年间国内档案数据领域学术文献的统计分析,认为我国学者对档案数据的理解呈现出明显的阶段性特征:办公自动化阶段(1992—2003)的档案数据与档案元数据相当;档案信息化阶段(2004—2011)的档案数据由档案元数据转向了文件与档案自身;到了大数据阶段(2012—2019),各类新兴技术对档案数据内涵与外延产生深刻影响,相关思考和讨论正在进行当中。2020年,金波等[3]综合国内多名学者的研究成果,将档案数据定义为“数据化的档案信息及具备档案性质的数据记录”,这是目前学界对档案数据最具代表性的理解。根据公开文献,“档案数据化”是在2008年之后伴随大数据技术潮流而出现的新术语,最初由档案信息化机构研究人员在总结实践经验的基础上提出。[4] 2018年,钱毅[5]提出档案管理对象演进的“三态”(模拟态、数字态、数据态)和“两化”(数字化、数据化)学说之后,“档案数据化”成为理论界和实践界共同关注的热点问题,被誉为档案信息化建设的下一个“风口”[6]。由此可见,“档案数据化”是建立在近三十年的档案数据研究基础上的一种面向人工智能时代的档案信息化建设新范式, 是在高度复杂的社会和技术环境当中孕育和发展起来的学术新概念,无论是各个发展阶段人们对档案数据理解所形成的惯性思维,还是大数据、人工智能等新兴技术环境下档案数据表示和实现的新模式,都会对“档案数据化”的内涵产生非常显著的影响。尤其需要注意的是,中文语境下的“数据”一词语义极为丰富,使用不同的义项则意味着“档案数据化”的内涵会有较大的差别。即使人们对“数据”的理解视角一致,如果其指代的对象属于不同类型的档案数据也会呈现出差异较大的解读方式。上述问题导致与“档案数据化”相关的学术讨论一直被术语所困,难以取得共识和进展,迫切需要加以系统性梳理,以期建立共同的学术逻辑和秩序。

1理解“档案数据化”的多重视角

中文语境下的“数据”(data)一词可以从四种视角进行理解,基于不同的视角,学界对“档案数据化”的解读也呈现出显著的多样化特征,现简要归纳和梳理如下:

第一种,数值型数据(D1),即采用数字和度量单位描述对象的数量特征。基于数值型数据视角的“档案数据化”(A/D1)通常是指强化档案统计工作,致力于用数值全面描述机构档案管理体系的状态特征及其变化趋势(例如文献7)。[7]

第二种,二进制数据(D2)。二进制数据是指计算机软件系统底层以0和1的组合形式存在的代码序列。此处的“数”特指二进制编码,相当于“数码”或“数字”。基于二进制数据视角的“档案数据化”(A/D2)通常是指通过扫描设备将纸质档案转换为数字化版本,同时对数字档案进行必要的元数据著录,其内涵几乎等同于“档案数字化”(例如文献8)。[8]

第三种,原料型数据(D3)。原料型数据是指供计算机从中分析和提炼有价值信息的所有基础性数字资源。基于原料型数据视角的“档案数据化”(A/D3)通常是指将档案内容转换成为方便计算机处理的信息形式。文献9认为“档案数据化”(A/D3-1)是数字档案资源开发,即“档案部门以用户需求和业务需要为导向,将档案资源转换为可供阅读、分析和处理的档案数据资源的过程”[9]。文献10认为“档案数据化”(AD3-2)是档案文本结构化,即“通过对自然语言文本的标注,使原本只供用户阅读的档案文本具有被计算机自动分析处理的潜力”[10]。两者不同主要体现在时间点上,文献9强调在数字化档案基础上进行深度开发,文献10强调在数字档案形成之前进行结构化设计。

第四种,结构化数据(D4)。结构化数据是指参照某种结构模型对客观世界各类事物的属性或状态进行描述而形成的复杂信息体。结构化数据类型多样,基于结构化数据视角的“档案数据化”(A/D4)的内涵会随着所指代结构化数据类型的不同而变化。当结构化数据指代档案元数据时,“档案数据化”(A/D4-1)是指参照某种元数据规范对数字档案的外部属性和内容特征进行著录,通常属于“档案数字化”范畴(例如文献11)。[11] 当结构化数据指代参照资源描述框架(Resource Description Framework,RDF)和语义网络模型构建的领域本体数据集时,“档案数据化”(A/D4-2)是指通过人工或自动抽取方式将档案的关键性内容信息描述为RDF数据并将其相互关联最终建成领域本体数据集的过程(例如文献12)。[12]  然而,即使将“档案数据”理解为某种结构化数据,中文的“化”语义也比较丰富。“档案数据化”除了有将档案资源转化为数据形式之外,也有将数据转化为档案的意味。如果数据是指支撑业务部门运转的业务数据,“档案数据化”(A/D4-3)就是对业务部门产生和管理的各类结构化数据进行档案化管理,以保障数据的证据价值。文献13提出,“广义的数据化是要面对业务环境形成的各类数据体”[13],就包含了将业务数据纳入档案管理的涵义。此外,科学数据归档管理相关研究中提及的“档案数据化”通常采用的也是上述视角(例如文献14)。[14]

为了避免不同情境下使用同一术语可能造成的语义冲突问题,文献中首先需要明确“档案数据化”的具体使用情境,尤其是要明确“数据”所指代的是哪种类型的数据。档案统计领域的“档案数据化(A/D1)”有其特定含义,出现混用的情形相对较少,档案信息化研究可以不做关注。然而,将“档案数据化”等同于“档案数字化”则可能引起术语逻辑关系的混乱,如非必要档案信息化相关研究尽量不要使用作为“档案数字化”同义语的“档案数据化”(A/D2)定义及专指数字档案元数据著录工作的“档案数据化”(A/D4-1)定义。排除以上三种情境,当前我国档案信息化建设领域的“档案数据化”主要包括“数字档案资源开发”(A/D3-1)、“档案文本结构化”(A/D3-2)、“档案领域本体建模”(A/D4-2)和“业务数据档案化”(A/D4-3)四种主要的术语使用情境。

2“记录因子”的概念与相关理论

“记录因子”(record factor)是参照图书情报领域的“知识元”(knowledge element)理论提出的一种体现档案内容本质特征的信息组织理论,是剖析和理解档案数据化底层逻辑的一把“钥匙”。

2.1 “知识元”理论概述

“知识元”是20世纪90年代以后,伴随知识经济和知识管理的兴起,在图书情报、管理科学与工程、教育学等学科领域出现的新术语,其核心思想是“以细粒度知识作为知识控制和处理基本单元”, 类似表述还有“知识单元”“知识因子”“知识基因”等。[15] “知识元”是相对图书、期刊、论文、研究报告等较大粒度文献知识组织单位而言的,对领域知识体系进行持续细分之后的结果。“知识元”是指不可分割的独立知识单位,是粒子化的知识概念,是知识结构的基本组成要素。[16] 知识元具有三大特性:原子性是指知识元是足以相互区分的独立知识单位;链接性是指知识元之间存在直接或间接的关系;拓扑性是指知识元之间相互链接形成特定的知识结构。[17] 按照知识元进行细粒度知识组织,就要改变以文献作为管理对象的传统模式,由对文献本身的关注转向对文献内容的关注,选择适合的知识元表示方法进行知识元描述和建模,通过知识元的抽取、标引、链接、集成、检索、挖掘等环节,构建面向用户的细粒度、智能化知识服务基础设施。

2.2 “记录因子”理论的提出

鉴于档案管理与图书文献管理模式的相似性,两者在满足用户细粒度、精准化信息需求方面的所面临的挑战及应对问题的思路也是类似的。当前,无论是纸质档案还是电子档案管理的基本单元还是粗粒度的文档(documents),管理元数据所描述的主要是档案的形成机构、题名、主题等概要信息,即使可以对档案内容做部分揭示,著录深度通常非常有限或者没有采用便于计算机处理的结构化形式,基于更小的知识单元进行档案信息组织同样也是档案管理的大势所趋。

然而,尽管学界对档案知识管理的研究由来已久,知识管理模式也在企业档案管理和科技档案管理领域积累了大量成功经验,图书情报领域的知识元概念却并不能完全适用于档案管理领域。[18]知识是人类经过研究或实践获取的关于客观事物及其运动变化规律的系统化认识,知识元通常表现为对知识体系细分的结果,如概念、定理、公式、数值、事实、结论等。档案所承载的是人类社会活动的原始记录,档案信息主要由时间、地点、组织、人物、事件、步骤、流程、资源、概念等事实性要素构成,两者在本质上还是存在较大的区别。尽管对人类社会活动过程的认知结果也属于事实性知识的一种类型,过度强调档案作为知识载体的属性还是会与其社会记忆载体的本质属性存在一定程度的矛盾和冲突。鉴于此,笔者结合档案内容信息的本质,提出体现档案学特征的“记录因子”(record factor)的概念。记录(record)是指通过某种符号系统或者技术手段对人类社会活动的过程进行描述或采集之后形成的结果,可以是以存证为目的有意识地进行主动描述或采集的结果,也可以是主观上以驱动业务运转为目的,客观上留存的对社会活动过程的原始记录。

参照知识元的定义,“记录因子”是指不可分割的独立记录单元,是构成档案内容信息的基本语义颗粒。由于记录通常属于事实性信息(facts),因而将作为其构成要素的“记录因子”翻译为record factor,以反映两者的逻辑关联。使用“记录因子”的概念,可以与档案学相关术语保持逻辑上的一致性。例如,档案是过去和现在的社会组织和个人在社会活动当中直接形成的原始记录,电子文件对应的英文翻译是electronic record(电子记录),都能说明档案与记录因子的紧密联系。“记录因子”与武汉大学董慧教授2010年提出的“档案本体分子”概念非常接近。本体分子是指“在本体基本元素(本体实例、三元组)基础之上,用唯一标识符标注的,根据语义或语用划分的、无缺失的、最小冗余的知识单元”[19]。可见,“档案本体分子”定义采用的是知识管理视角,没有体现档案信息内容与图书、期刊等文献内容的本质区别,相当于是“知识元”概念在档案管理领域的别称。此外,物理学中的“分子”还不是无法分割的最小颗粒,分子之间还不足以相互区别,这也是要用“记录因子”来重新定义档案管理领域“知识元”类似概念的重要原因。

2.3 “记录因子”理论的主要观点

第一,“记录因子”是对人类社会活动的单一维度、最小颗粒描述。自然语言文本对社会活动的记录属于多维度复合型描述,例如档案文本“中国共产党第一次全国代表大会于1921年7月21日至23日在上海召开”就同时包含了组织名称、会议类事件名称、开始日期、结束日期、所在地点共五个维度的记录因子。“记录因子”的抽取过程本质上是对自然语言文本的“降维”处理,致力于将融合了多维度信息的自然语言文本便转换为计算机可以快速处理的单一维度表达形式的集合。

第二,“记录因子”采用与资源描述框架RDF对应的语义三元组形式进行表示。[20] 语义三元组包括实体属性关系和实体之间的关系两种类型,典型表达形式为记录因子(实体1,属性,属性值)和记录因子(实体1,关系,实体2)两种。例如,RF1(MZD,HasNameOf,毛泽东)表示人物实体MZD姓名属性取值是“毛泽东”的记录因子RF1, RF2(MZD,IsMermberOf,CPC)则表示人物实体MZD(毛泽东)与组织实体CPC(中国共产党)之间属于成员关系的记录因子RF2。受到现有知识储量和认识能力的限制,并不是所有档案文本当中的记录因子在数据化时都有清晰的描述方案,在档案文本所含词元的实体关系尚不明确时,可以暂时采用文档与词元之间的包含关系进行模糊描述,以满足字符比对型检索系统的描述需求。例如RF3(AD1,HasWordsOf,李德胜)表示档案实体AD1当中包括词元“李德胜”,其属性和关系暂时不明确,留待今后进行补充和完善。

第三,“记录因子”属于底层的语义逻辑,与表层的符号逻辑相互关联,又存在一定程度的独立性。例如名称属性为“毛泽东”的人物实体创建之后,档案文本当中出现的“毛泽东”“毛润之”“毛主席”“Chairman Mao”等表述均指向这一实体,关于其属性和关系的各类记录因子不会受到表层符号逻辑差异性的干扰和影响。同样,地名变迁也不会影响地名类记录因子实体的唯一性。此外,表层信息的媒体形式也不会影响底层记录因子的关系。档案内容信息无论是以文本、图片、语音还是视频形式进行呈现,只要描述的语义内容是一致的,用记录因子描述的结果就是一致的。

第四,语义框架(semantic frame)是记录因子的逻辑容器。框架是人们基于对事物的认知经验而对类似事物形成的预期心理认知结构。档案文本的主题和内容虽然多元,但是在描述同类事物时,认知结构还是会呈现出诸多类似的特征。[21] 例如,战争类事件语义框架SF-War主要包括“战争名称”“战争时间”“战争地点”“进攻方组织”“防守方组织”“进攻方领导者”“防守方领导者”“进攻方装备”“防守方装备”“战争过程”“战争结果”等框架要素,所有框架要素逐级细分形成更小粒度的框架要素,最终在底层形成若干个有待使用记录因子进行填充的“语义槽”(semantic slots)。记录因子可以分为时间类记录因子、空间类记录因子、人物类记录因子、机构类记录因子、实物类记录因子、概念类记录因子、事件类记录因子等类型,应用记录因子对社会活动的记录和描述通常需要参照特定的语义框架,综合使用多个维度的记录因子,呈现出高度复杂的层级式语义结构。

第五,具有相关性的多个记录因子可以产生“聚变效应”。记录因子分为显性记录因子和潜在记录因子两种类型。显性记录因子是指可以从档案文本当中直接获取的记录信息,潜在记录因子是虽然不能从单一档案文本当中获取,但是可以综合现有的两个或两个以上档案文本的记录因子,通过合理的规则进行推理之后得到的新的记录因子。[22 ]例如,从档案A当中抽取记录因子RF4[MZD(毛泽东),IsGraduatedFrom,湖南第一师范学校],从档案B当中抽取记录因子RF5[CHS(蔡和森),IsGraduatedFrom,湖南第一师范学校],则可推理出RF6[MZD(毛泽东),HasSchoolmatesOf,CHS(蔡和森)]。逻辑推理能力是智能化档案数据服务区别于传统档案文献查阅服务的典型特征,尽管推理获取的记录因子无法从档案文本得到证实,但是也是客观存在的事实,在来源记录因子、来源文献和推理规则等信息保存完整的情况下,也可以与抽取的记录因子一样作为证据使用。语义推理是高度复杂的人工智能技术,面临符号系统消歧、逻辑参照体系构建、推理规则提炼和验证、推理规则形式化描述等诸多难题,总体没有发展成熟,推理方法产生的记录因子必须经过人工确认。

第六,记录因子抽取致力于将档案文本核心信息转换为“准等价语义压缩数据集”。记录因子是档案自然语言文本信息中最重要的部分,也是用户档案需求指向的主要对象,对档案文本的记录因子进行抽取之后,通常情况下可以满足绝大多数用户的档案利用需求。因此,可以将记录因子的抽取过程视为对档案自然语言文本信息的“语义压缩”(semantic compression)过程,即忽略档案文本的非关键信息,将最重要的信息转换为结构化数据形式,两者虽然不能完全等同但是也可以满足大多数用户的利用需求。即使用户需要查找记录因子数据集之外的非关键信息,还可以通过向电子档案检索服务或纸质档案查阅服务回溯,使用传统档案服务模式满足需求。

第七,记录因子聚合的终极形式是档案领域本体数据集(Archival Ontological Data Set,AODS)。“本体”(ontology)起源于哲学领域,本义为“存在”。“档案领域本体数据集”是指按照客观世界原本逻辑来描述档案文本内容所涉及实体、属性及其关系的可共享结构化数据集。档案领本体数据集相当于大量档案文本关键内容信息的结构化合集,在可以通过本体检索满足需求的情况下,用户通常不再需要查阅原始档案文本。当本体中的记录因子达到一定数量级,可以模拟特定历史时期各类实体相互作用和运行变化的过程,发现受制于档案内容碎片化难以进行整体性探索的规律。[23] 

3“档案数据化”的底层逻辑解析

“档案数据化”是档案信息化建设的前沿领域,要理解其运行机理和各类实践模式之间的互动关系,有必要借助记录因子理论,从底层逻辑视角对其运行机理进行深度解析。此处的“底层逻辑”是相对处于表层的实践和应用逻辑而言的,是指驱动档案数据化的微观动因和内在动力机制。

3.1 记录因子理论视角下的“档案数据化”原理

从记录因子理论来看,“档案数据化”意味着档案管理的基本单元由粗粒度的文档转变为细粒度的记录因子,管理活动所依赖的核心工具由档案元数据转变为具有整体性特征的档案领域本体数据集,从而使档案文档中所蕴含的大量记录因子可以脱离原始信息控制单元的限制和束缚,按照其在社会历史活动中原有逻辑进行关联与重组,进而实现与用户需求的动态、精准匹配。如图1所示。

图1 基于记录因子的“档案数据化”原理

图1中,人类社会实践活动的相关信息通过自然语言文本记录于各类档案材料,每一份档案文本当中都蕴含着大量作为颗粒化社会记忆的记录因子,反映了特定历史阶段机构或个人对社会活动原貌的认知结果。档案数据服务的首要任务是将记录因子从信息控制的基本单元“文档”(documents)中抽取出来,按照规范逻辑在档案领域本体数据集中进行关联与聚合,即“档案数据化”(A/D4-2)。图1中数据采用了虚线表示,代表该数据并不是直接从档案文本中抽取的记录因子,而是基于现有的多个记录因子进行语义推理之后产生的新数据。档案领域本体数据集的证据价值是由构成它的每一个记录因子的证据价值所决定的,只有确保所有记录因子都有可靠的档案文档作为依据,所有通过语义推理方式产生的数据都有完整的过程记录,则档案领域本体数据集就可以作为可信档案数据服务基础设施而被用户所信任,其中的记录因子就可以根据用户需求进行精准匹配和动态重组。“档案数据化”将驱动档案管理机构的职能转变,使其从档案文档保存与利用的辅助型服务机构转变为向社会大众提供可信档案内容数据服务的公共权威机构。基于档案领域本体数据集,用户无须查阅档案文档就可以获取需要的关键性证据信息,获得细粒度、精准化、智能化的档案数据服务。从可信档案领域本体数据集当中检索到的数据,通常来源于多份原始档案,经过档案管理部门签章确认之后就可以与原始档案一样在社会活动中作为证据使用,就像人们日常生活中使用自来水、照明电时只关心供水和供电企业的运行是否符合规范而不用考虑水、电最初来源于何处。[24]

“档案数据化”还将驱动档案馆与业务系统之间关系的转型,使其由传统的文档流转和存储的线性关系,演变为“应用系统”与“基础设施”之间的支撑型关系。档案领域本体数据集将原本只供人工阅读的档案文本转换为计算机可以高速、精准处理的结构化形式,使业务系统当中的各类自动化、智能化分析处理功能得以实现,使得档案数据成为驱动人工智能系统运转的战略性资源。

3.2 “档案数据化”实践模式之间的互动

“档案数据化”是由档案管理部门主导,业务部门、信息技术支持部门和标准化管理部门等多元主体共同参与,共同推动档案数据服务创新的过程。根据记录因子理论,档案数据化的主线实践模式是“档案领域本体建模”(A/D4-2)。然而,由于档案文档数量庞大,记录因子抽取和融合难度较大,短期无法实现完全脱离档案文档的高水平智能数据服务,当前阶段档案数据化实践应当致力于构建多种实践模式并存、多元主体和谐互动的档案信息生态系统。[25] 如图2所示。

图2  “档案数据化”实践模式之间的互动

2.1 “知识元”理论概述

图2当中,面向档案领域本体建模的“档案数据化”(A/D4-2)致力于将数字档案所蕴含的记录因子抽取并关联融合为统一的整体,属于“档案数据化”最重要的实践模式。鉴于档案领域本体建模的复杂性、长期性和艰巨性,在本体库所融入的记录因子数量还不足以支撑档案数据服务的阶段,处在建设当中的档案领域本体数据集还可以作为档案知识组织系统(Knowledge Organize System,KOS)使用,为档案文本的智能化检索提供支持。当数字档案的元数据或者文本参照本体进行语义标注之后,可以部分地消除文字符号的多义性和歧义理解现象,使数字档案文献检索的结果更为精准,即以数字档案资源开发为主题的“档案数据化”(A/D3-1)。如果在业务部门办公自动化系统开发时就将档案数据化需求嵌入其中,可以让档案文本生成之初逻辑上就实现结构化描述,可以被人工阅读也可以被计算机高效处理,即致力于推动档案文本结构化的“档案数据化”(A/D3-2)实践模式。业务数据档案化模式(A/D4-3)则需要将业务部门开发的各类业务数据库纳入档案管理范畴,对数据库管理过程中的各类要素进行规范化控制,条件具备时也可以考虑将业务部门产生的数据记录进行归档操作,使其融入档案领域本体数据集。上述四种模式相互依存,互为补充:“档案数据化”(A/D4-2)所建立的档案领域本体数据集在“档案数据化”(A/D3-1)情境下就成为语义标引的逻辑参照体系,在档案文本结构化(A/D3-2)情境下就成为文本层级划分和语义标注的参照标准;而“业务数据档案化”(A/D4-3)则会扩大档案领域本体数据集的覆盖面,使得档案本体对社会历史本体的表征能力持续增强,档案数据检索的查全率和查准率得到提升。

总之,“档案数据化”四种基本实践模式分别对应了四种不同的应用情境,尽管完全基于档案领域本体数据集实现智能化档案数据服务是档案数据化的最终目标,四种实践模式长期共存、相互补充、相互促进的局面将在相当长时间段之内持续存在。“档案数据化”的四种实践模式在档案信息化建设当中具有各自的价值,实践当中从何种模式入手,取决于所在地区档案信息资源开发水平和档案信息化建设协作机制的就绪程度,需要档案数据化主管机构综合考虑多种因素之后进行决策。

4“档案数据化”的定位与策略

根据“档案数据化”概念梳理的结果及记录因子理论视角下的“档案数据化”实现机理,现对我国现阶段推进“档案数据化”建设的战略定位和相关实践策略建议如下。

4.1 “档案数据化”的战略定位

根据记录因子理论,“档案数据化”的核心任务是将固化在档案文档当中的大量记录因子提取和释放出来,并通过关联与融合来模拟社会历史系统中各类实体、属性和关系的形态和规律。“档案数据化”并不是单纯的技术开发工程,而是一种面向人工智能时代档案服务体系转型的战略框架。“档案数据化”意味着档案服务工作需要由粗粒度的档案文档服务模式,经过长期的过渡与演化,最终切换到细粒度、智能化的档案数据服务模式,前者主要为用户查找档案文档提供必要的支持,而后者需要对用户的档案需求给予精准化、智能化的回应,直接给用户反馈需要的档案数据,而不是提供一系列相关档案的目录由用户自行阅读和查找。“档案数据化”并不局限于某种实践模式,以数据科学理念驱动档案管理和服务创新的所有活动都可以纳入档案数据化的范畴。在现阶段,致力于档案数字化成果深度开发、从业务系统前端推动档案文本结构化、对业务数据进行档案化管理等实践模式都有助于良性档案数据生态的构建,都属于档案数据化的重要内容。综上所述,“档案数据化”是档案管理部门面向人工智能时代的精准化、智能化服务需求,运用数据科学理念与方法驱动档案管理和服务创新的战略框架,致力于解决档案文档内容信息“碎片化”问题,构建多元主体参与、多模式协同的“档案数据生态”,推动粗粒度档案文档服务向细粒度、智能化档案数据服务模式转型。

4.2 “档案数据化”的实践策略

第一,加强“档案数据化”基础理论研究。“档案数据化”属于战略层的宏观管理理念,致力于推动现有档案管理和利用体系的整体性重塑,建立以数据为中心的智能化档案服务体系,与技术属性更显著的“档案数字化”有着本质的不同。目前,“档案数据化”实践处于起步阶段,基础理论对实践的指导力度不足,迫切需要相关研究机构从战略视角对档案数据化进行全面思考和探索,对档案数据化的推动主体、协作关系、目标定位、实践模式和发展方向等基础问题进行深入讨论。

第二,明确档案数据化发展的“边建设,边利用”原则。相比档案数字化所依赖的光学扫描技术,档案数据化的支撑技术更为复杂,几乎涉及人工智能技术体系的各个方面,其实现程度受到人工智能技术本身发展速度的影响。加之档案数量大、形式多样、逻辑结构复杂,短期内取得较大突破的可能性较小,可以从小规模本体建模入手,在为数字档案资源深度开发和档案文本结构化提供逻辑参照体系的过程中,采集相关资源进行自我更新,采用渐进策略逐步扩大本体数据集规模。

第三,优先启动档案领域本体建模相关技术的试点工作。由图2可知,档案领域本体数据集在档案数据化四种实践模式中处于中枢地位,模式A/D4-2和模式A/D4-3属于本体的建设,模式A/D3-1和模式A/D3-2属于本体的应用。建议相关机构针对档案领域本体建模问题进行专题研究,探索能够确保档案领域本体建模过程规范性,保障档案数据证据价值的理论与方法。

第四,尽早攻克档案文本记录因子自动化抽取技术难关,提高档案数据抽取的效率和质量。目前档案文本记录因子抽取工作主要依靠人工方式进行,工作效率低下,与档案部门海量馆藏相比形成非常突出的矛盾。建议相关研究机构应用机器学习等技术手段,提高记录因子数据抽取的效率的方法,使绝大多数类似的抽取任务可以由计算机高速完成,人工进行数据质量确认即可。

第五,加快推进档案文本结构化相关研究,尽量使当前产生的各类数字化档案在形成之初就采用结构化模型进行描述,具有被业务系统理解和智能化处理的能力,在归档保存之后可以直接将相关数据导入领域数据本体,不再需要进行专门的记录因子数据抽取。

第六,本着互利原则与业务部门协作推动档案领域本体融合。业务部门将业务数据库的部分数据记录导入档案领域本体数据集可以大幅度提高档案数据化工作的效率。与此同时,档案部门以逆向工程方式获得的领域本体库也可能包括符合业务部门需求的业务数据集,双方可以通过协作或交换方式开展合作,在符合国家法律制度规定的前提下共享或交换对方需要的数据集。

注释与参考文献

    作者:赵生辉、胡 莹

    作者单位:西藏民族大学管理学院、云南大学历史与档案学院

    原载于《档案学通讯》2021年第4期

    本文来源:2021.07.27档案那些事儿微信公众号

Produced By 大汉网络 大汉版通发布系统