当前位置:首页
>归档栏目>业务新知
对象、结构与价值:档案知识工程的基础问题探究
  • 信息时间:2022-06-29 16:31
  • 浏览次数: 291

张斌  高晨翔  牛力

摘要】 知识工程在数据与信息的智能处理与知识挖掘方面产生了巨大效用,探索知识工程在档案领域的应用模式与基本价值,有利于档案资源知识发现与服务方式的革新。采用对象、结构与价值三重视角,首先界定了档案知识工程的二阶研究对象;其次,从知识对象、知识关联与知识应用三个层面阐明了档案知识工程研究体系,对档案的知识获取、知识表示、知识组织、知识推理、知识检索及知识可视化等具体方法与组件进行了探讨,明确了档案知识工程的理论定位。最后,对档案知识工程的理论与实践价值进行了简要讨论。档案知识工程在档案学基础理论与应用技术创新方面具有一定的牵引与推动价值。

关键词:档案数据;知识工程;知识发现;知识服务

1引言

大数据、云计算与人工智能技术正推动海量的档案信息资源由“数字态向数据态转化”[1]。档案数据的积累为档案的知识化开发与利用建立了良好的物质基础与资源环境,也需要与之相匹配的档案知识发现理论与技术体系。与此同时,泛在知识环境下的档案用户需求也在不断变化,推动着档案资源利用由低阶、单维的案卷级服务向高阶、多维的知识级服务转型。基于这一趋势,一些档案学者已在档案知识管理、知识挖掘、知识聚合、知识服务、知识网络等[2]相关领域有所耕耘,同时也将以上课题聚焦于档案数据资源的管理思维、管理方式及管理技术的知识化与智能化,形成了一些系统化、工程化的档案知识发现与服务模型框架[3],该类研究可视为档案知识工程在起步阶段的探索。

知识工程(Knowledge Engineering)是以知识为处理对象,利用人工智能的原理、方法和技术,设计、构造和维护知识型系统的交叉学科。知识工程领域重点关注知识的获取、表示及应用,旨在解决知识环境下的智能搜索、精准推送、自然人机交互、深层关系推理等[4]实际问题,同时促进知识技术与智能技术的交互整合。目前,知识工程已广泛应用于计算机科学、控制工程、运筹与管理科学等学科领域,体现了知识工程从海量数据与信息中定义、识别、挖掘、激活与表达知识的效率和能力,同时展现了知识工程在知识发现、知识服务与知识系统构建中的体系化、规范化、逻辑化[5]优势。

此前,档案知识管理研究在国内外档案学界产生了一定影响。档案的知识管理模式强调以组织层面的管理战略与范式为基础,将文件、档案等信息资源视作组织拥有的内源显性知识资产,通过对文件、档案内容的整理与挖掘来发挥文件、档案的“高阶利用价值”[6],从管理学视角提升文件与档案的实用性,明确档案资源的知识属性。本文提出的档案知识工程侧重于以各类档案资源为操作对象,借助大数据、人工智能、云计算等工程化的理念与方法解决档案知识获取、知识表示及知识应用等实际问题,同时设计、构建面向用户的档案知识库。整体而言,档案知识管理以隐性档案知识的集成显化、无序档案知识的规范整序和泛化档案知识的本体建模[7]为核心目标,搭建档案资源知识化的综合治理框架,而档案知识工程以细粒度的档案知识表征与知识计算为依托,重视档案资源开发利用技术体系的创新,以形成多元开放的档案知识发现与服务机制为主要目的。

当前,国内的图书情报与档案管理学界对知识工程领域的关注、认知、理解与研究还稍显欠缺,尚未完全发现知识工程应用于档案或其他文献研究领域可能产生的巨大价值。本文从对象、结构与价值三个维度切入,对档案知识工程的研究对象、内容与体系,以及推行档案知识工程可能产生的理论与实践价值进行分析,厘清知识工程对档案学及档案工作的影响,为档案知识工程的后续研究提供一定的借鉴与参考。

2研究综述

本研究综合利用CNKI、WoS、EI Compendex、Emerald、Elsevier等中外文数据库,检索“档案”“文件”“知识工程”或“Archives”“Records”“Knowledge Engineering”等中外文核心领域词在“摘要”“篇名”“关键词”等检索点上共现的学术论文。结果发现,在知识工程的既有研究中,计算机与工程学界与图情档学界的研究视角存在差异,前者既将“知识工程”看作一个整体,探索知识工程的基础理论与研究体系,也探索知识工程在信息系统中的部署与应用,以提升业务办理与组织决策的效率与智能水平为目标;后者则着重探究知识工程的具体模块,如知识获取、知识表示、知识组织在文献信息领域的创新应用,以文献型知识的获取、挖掘、保存、传递与服务为核心目标。因此,本文分别对“知识工程”的理论研究与图情档学界的应用研究作一概述。

基础研究方面,Mcburney等对近25年以来知识工程理论体系与实践应用进行了梳理,邀请知识工程领域的知名专家参与讨论,对人工智能时代基于知识工程的机器人研究、知识工程在多学科领域的应用及发展路径、大数据与知识工程、语义网之于知识获取的意义等关键问题进行了探究。[8]袁国铭等在界定知识工程的基本概念与人物角色的基础上,对知识工程的核心内容——知识获取与知识表示进行了介绍,同时概述了知识工程对组织知识管理的应用价值。[9]邱均平等利用文献计量方法对我国知识工程的研究进展与趋势进行了勾勒,指出知识工程未来将在更广泛的领域得以部署、知识工程技术将不断创新并对智慧城市建设产生积极影响。[10]吴信东等在评述既有几种大数据模型的基础上,阐述了大数据时代知识工程发展的机遇与挑战,作者由此提出了大数据知识工程模型BigKE,强调了大数据时代知识建模与知识融合碎片化、知识导航个性化等特征。[11]

而在图情档学界的应用方面,Tien‐Yu Hsu等基于知识工程理念搭建了一体化的数字档案内容管理系统,涵盖了数字档案知识创造、知识组织、知识管理到知识发布[12]的全过程。陈丽分析了知识工程项目中档案价值的开发机制,基于知识工程思想提出了包括档案原始资源、档案知识图谱及用户在内的三层档案知识理论挖掘体系。[13]张斌等提出了面向组织决策的档案知识库,其中涉及档案知识获取、知识表示、知识推理与知识检索[14]等知识工程的核心问题,为档案知识工程研究建立了理论基础。高国伟等搭建了基于知识元的知识库模型,该模型嵌入了一般意义上知识工程的核心模块,同时基于情报学视角,体现了对知识标引、知识组织与知识评价等功能的关注。[15]马雨萌等在抽取专业文献数据的基础上构建了中医专题知识库,涉及专题文献的知识获取、知识表达、知识规范、知识组织、知识检索及知识可视化,基本涵盖了知识工程的核心研究域,显著体现了知识工程在图情档领域的应用价值。[16]

3对象:档案知识工程的研究对象与特征

档案知识工程的研究对象涵盖了由传统至现代的多重档案形式。就时间次序而言,档案知识工程的研究对象包括了由古代至现代保存积累的文本档案、原生与次生状态下的数字档案,以及大数据环境下“信号及语义双重离散的数据态档案”[17];就管理次序而言,档案知识工程的研究对象由办理完毕、归档保存的档案数据延伸至开发利用环节中的档案知识。针对研究对象的不同类型,档案知识工程具有不同的作用方式。结合上述档案类型的基本特征,本研究将档案知识工程的研究对象概括为档案数据与档案知识,对二者在档案知识工程中的定位与作用进行阐述,同时从体系定位、来源途径、作用方式等层面进行简要对比,如表1所示。

表1 档案知识工程研究对象之间的特征对比

3.1档案数据

“档案数据”是近年来档案学界提出的新概念,用以表征直接产生于业务系统或经由纸本、图像、音视频等传统模拟态档案转化的、机器可直接识读和处理的并以离散形式保存于数据库中的数据态档案,我们依据其来源将其划分为“原生档案数据”与“次生档案数据”,在具体开发利用过程中,两类档案数据的处理方式没有明显区别。档案数据拥有较细的表示与操作粒度,通常以XML、JSON、CSV或特定的数据库格式进行表达与存储,在数据的保存、交换与互操作层面也具有一定优势。因此,在档案知识工程体系中,档案数据是档案知识转化过程中不可或缺的原始对象,成为档案知识开发与利用的“近线数据资源库”。利用知识表示、关联数据、本体等知识工程技术,能够将离散的档案数据序化组织为系统的档案知识,这也是档案知识工程实施的起始性工作。

3.2档案知识

档案知识是档案数据规范化、关联化、语义化的结果,不仅能够为机器所识读和处理,更能够为机器所理解,并借助特定规则实现基于计算机与知识库的知识推理。档案知识是知识工程学与档案学交叉领域下的核心研究对象,通常以RDF、OWL、Turtle或其他图数据库格式进行表示与存储。档案知识的基本单位为档案知识单元,由相互关联的档案语义三元组经逻辑融合[19]和排列构成。在档案知识工程研究中,档案知识既是知识记录与保存的基本形式,也是知识挖掘、表达与服务的物质基础,通常需要借助档案知识组织、知识推理、知识可视化等知识工程技术对档案知识进行再组织与上下文关联,使得档案知识不仅能够为机器所识读、理解,更能为用户所感知、汲取和体验。

4结构:档案知识工程的研究体系与框架

关于知识工程的研究体系与内容,目前学界并没有形成统一的认识。学者们比较一致的观点即知识工程的研究体系至少应包括知识获取、知识表示、知识推理与知识利用等几个核心模块。[3][6][20][21]本研究在检索、分析学者既有论述的前提下,结合档案学与档案工作的基本特征与知识需求,分知识对象、知识关联与知识应用三个层次将档案知识工程的研究体系概括为档案的知识获取、知识表示、知识组织、知识推理、知识检索、知识可视化六个部分,档案知识工程的基本结构如图1所示。

图1 档案知识工程研究体系与框架

4.1知识对象层

知识对象层着力解决从复杂、离散、异构的档案文献中提取档案知识对象与知识实体这一问题,实现从档案数据到档案知识的研究及操作对象转化,对档案资源及数据作细粒度及知识化的表达。在知识对象层面,档案知识工程的应用包括档案知识获取与知识表示两个方面。

4.1.1 以数据挖掘和深度学习为主导的档案知识获取

档案的知识获取是一个涉及数据挖掘与知识发现的过程,其基本流程即从多源异构的档案数据源中提取档案数据,再按照一定的规则、算法与模式对特定类型的档案数据进行挖掘处理,从中提取出相应的知识内容。档案知识获取方案的选取与档案数据类型及结构化水平密切相关。

4.1.1.1 结构化档案数据的知识获取

一般而言,对于数据结构化程度较高的、易转换为数理表示形式的、易在关系型数据库中保存并维护的档案资源(如会计档案、数值型的工程技术档案、调查与统计档案等),可采取传统的数据挖掘方法,如关联规则挖掘、决策树方法、统计学特征分析等方法,从海量的档案数据资源中抽取知识内容。抽取所得的档案知识内容同样应以结构化的形式进行存储,以便在知识表示环节将“键-值”型档案数据映射为关联化的档案知识,完成档案知识的对象化操作。

4.1.1.2 非结构化档案的知识获取

对于半结构化或非结构化档案资源(如采用OFD、WARC等格式封装的、多种媒体类型并存的档案),则需利用深度学习方法进行数据转换与挖掘,借助自然语言处理与实体识别技术,能够对文本、图像与音视频中蕴含的实体及语义信息进行界定、分类与抽取,将离散的档案数据资源转变为知识对象。洛桑联邦理工学院主导的“威尼斯时光机”项目即采用3D扫描与命名实体识别技术,实现了海量古代政府文件、地图、专著、手稿[22]等类型档案的知识获取。目前,以BiLSTM-CRF和BERT为代表的自然语言处理模型有力推动了以文本为主要形式的档案资源知识获取的精度、深度与效率。

4.1.2 基于语义网技术的档案知识表示

档案知识表示是特定情境下语法形态、语义规则及语用目标的统一,是链接中阶知识对象与高阶知识服务的桥梁。通过细粒度的知识表示,能够将档案知识对象与知识实体转化为机器可理解的、结构化、序列化、语义化的知识资源。

目前,基于语义网的表示方法成为泛在知识环境下知识表示的核心方法,该方法推动了知识量化、计算与交换的进程。OWL语言是当下文献类信息与知识表示的重要工具,该语言基于扩展的RDF框架,是一种本体化的知识表示语言。该语言不仅能够实现语义三元组形式的档案知识描述,界定知识实体间的基本关系,还能够对档案知识实体间语义关系的方向、类型、强弱等特征进行限定。例如,利用RDF/XML格式的OWL语言对“文件由文书工作人员进行编写,且需要为文件赋唯一时间戳”这一条档案领域的知识进行表示,则表示方法如下:

利用OWL语言能够实现档案知识对象的规范化表示,为其后的知识关联与知识服务建立了应有的基础,这种形式化、数理化、逻辑化的表示方法有助于档案知识的进一步组织与挖掘。

4.2知识关联层

从范畴、领域等宏中观视角来看,经过知识表示处理的档案知识对象仍处于零散状态,知识对象间的语义关系及相互作用机制不够明确,需要借助领域化、情境化的规则、模式与体系对档案知识对象进行再组织,形成层次机制与关联关系明确的档案知识网络。这一方面,以本体、关联数据和知识图谱为代表的知识组织与推理工具能够进一步实现档案知识对象间的语义关联,并基于语义关系网进行知识推理,扩展档案知识域。

4.2.1 基于本体与关联数据的档案知识组织

本体是特定范畴或领域内用以深度描述命名实体、建立实体间语义关系的规范框架与模板,能够通过对象、实例、数据属性、对象属性、约束条件及推理规则的定义实现档案知识对象的形式化操作,关联数据则是本体自身或基于本体的领域知识内容的数据态表征。目前,国内外档案领域的知识组织工具则相对较为少见,尤其缺乏自顶向下的、领域级的本体设计与构建。段荣婷曾采用简约知识组织系统(SKOS)实现了《中国档案主题词表》的语义化与关联数据发布[23],目前尚未在国内档案学界产生显著影响。

档案知识组织工具应在模型中综合体现出文件、档案、文书档案工作者、组织机构、时间、地点、主题等核心知识实体之间的语义关联关系,以知识单元为基元实现档案资源内容与形式特征的细粒度表示与组织。本研究构建了档案学领域的微型本体,实现了本体可视化,如图2所示。

图2中,文件、档案、档案室及档案馆等均是本体蕴含的知识实体,通过有向边相互连结,形成了如(文件,归档成为,档案)等语义三元组,这个三元组在实例层面即阐明了某份具体文件经过“归档”这一行为转变为某份“档案”的过程,多个档案知识单元经过有序整合即形成了档案知识元。通过为知识实体和相应的数据属性添加实例,能够形成更为丰富的档案知识集合,而将本体规范后的档案知识内容以OWL、RDFS等格式进行数据态的表征、发布与保存,即形成了档案关联数据。

图2 档案学领域的简单本体及可视化

4.2.2 应用知识图谱技术的档案知识推理

知识图谱与网络知识库及关联数据具有较高的相似性,是一种基于图论的数据结构[20],能够将领域内外的知识单元编织成庞大的知识网络,实现高效的知识问答与推理。如上节所述,基于知识图谱的知识推理需与特定的本体模型相结合,基于本体定义与知识结构实现知识图谱的补全与语义实体融合,从而完成档案知识的推理。

图3 档案知识图谱补全

图3与图4分别表示了基于知识图谱的档案知识补全与知识融合等推理问题。图3以图2构建的可视化本体为例,原知识图谱中的“档案”节点被隐去,形成了(文件,归档成为,?)、(?,保存于,档案室)等缺失的语义三元组。图4则涉及档案知识的融合问题,该图谱中存在两个名为“吴宝康”的知识实体,并与不同的实体相关联形成档案知识元。若以上两个同名实体经验证为同一实体,则可将两个实体进行知识融合。目前,深度神经网络及表示学习技术能够在引入开放域数据资源与知识图谱的前提下,结合实体间关系、上下文信息及实体间的语义相似度,有针对性地训练出用于知识图谱补全与知识融合的模型,从而完成档案的知识推理任务。

图4 基于知识图谱的档案知识融合

知识图谱与表示学习相结合的知识推理在开放域[24]得到了越来越多的应用,该方法在公共档案馆、数字档案馆及档案与记忆项目网站中具有较大的前景与价值,如加州大学洛杉矶分校的劳工网络项目[25]、上海图书馆的盛宣怀档案知识库[26]等开放知识环境下的档案知识推理问题均采取了这一方法。

4.3知识应用层

经过知识表示与语义组织,底层的档案数据已转化为了以关联数据形式存在的档案知识,形成了特定开放域内的档案知识图谱体系,在知识结构与内容两个方面都渐次完整,档案知识工程的重心将从知识处理转移至知识应用方面。因此,以知识检索和知识可视化为代表的知识应用与服务技术是档案知识工程在该层面的核心所在。

4.3.1 结合知识图谱及语义映射的档案知识检索

与知识推理研究相似,知识检索同样以知识图谱为主要的数据结构,实现档案的知识检索需要语义解析、自然语言处理[27]等作为技术支撑。比如,在档案知识图谱的查询界面输入自然语言查询句“著名档案学者弗兰克·阿普沃德的国籍是?”进行知识检索,则首先需对句子进行分词与命名实体识别,以提取出“档案学”“学者”“弗兰克·阿普沃德”“国籍”等具有实际意义的词项;其次,将以上词项映射至档案知识本体中预定义的实体、关系或数值,将映射后的实体与关系进行语义整合,形成特定的查询三元组,如;最后,将所得语义三元组转化为SPARQL查询语言,与既有的档案知识图谱进行语义匹配,返回所得属性值,完成整个知识检索任务。在档案知识工程中,档案知识检索是人机交互关系最为密切的环节,因此该环节还需对检索结果评估与用户反馈内容加以关注。

4.3.2多维感知情境下的档案知识可视化

知识可视化主要应用视觉表征手段来构建、传达和表示复杂知识,其目标在于知识外化与传递,并帮助用户正确地重构、记忆和应用知识。知识图谱不仅是关联知识存储与操作的工具,也是知识可视化不可或缺的重要凭借。目前,知识图谱在档案知识可视化方面已经有所应用,除上文提到的盛宣怀档案知识库外,杨茜雅介绍了中国联通电子档案数据的知识挖掘与管理系统[28],该系统将视频、音频、文本、图像等表示为三元组实体,生成了不同主题下的档案知识图谱。中国人民大学人文北京研究中心对“北京城门”主题下的数字档案资源进行了知识开发,构建了包括人物、组织机构和地理位置三类实体在内的档案知识图谱,同时将实例节点的词频融入图谱,丰富了特定主题下的档案知识内涵[29],如图5所示。

此外,相比单一作用于用户视觉的知识图谱,以VR、AR、GIS和3D建模相结合的多维感知情境下的知识可视化形式在档案知识发现与服务领域具有较高的应用前景和价值。该方法以知识的视觉效应为基础但不限于视觉效应,而是扩展并作用于用户的听觉、感觉等多维感知模式,将特定的档案知识片段或叙事形式的档案知识内容直接融入用户的切身体验。目前,漳州市档案馆已经开通了三维VR数字网上展馆,分“漳州城市记忆”“福建侨批档案”等主题开展档案知识服务,后续将允许用户直接使用手机、平板结合虚拟现实设备进行知识体验。[30]未来,知识图谱与多维感知相结合的档案知识服务将成为档案知识工程在知识应用层面的研究重点。

图5 “北京城门”主题档案知识图谱

5价值:档案知识工程的理论与实践意义

结合上述分析,档案知识工程的应用与部署对于档案学及档案工作的理念与模式转变产生较大影响,尤其对于档案资源与数据的知识化表征与服务具有重要意义。本文认为,档案知识工程未来将从理论、模式、价值与服务四个维度融入档案学领域,体现其作为人工智能时代新理论、新技术的潜力与价值。

5.1理论维度:丰富档案资源

开发利用的相关理论

传统的档案资源开发利用以编纂、编研及策展等方式为主,该模式下的档案文化产品成型周期较长,且成果表现为图书、展板及资料汇编等文献形式,知识开发与服务的粒度较粗,服务范围相对有限。与此同时,记忆主题下的档案资源开发模式目前仍未形成统一机制,且资源建档、描述与组织技术尚未完全从信息范式过渡至知识范式。这一方面,档案知识工程的推行能够有效弥补档案资源开发利用既有理论与模式的不足之处。档案知识工程以细粒度、单元化的知识为研究和操作对象,通过对命名实体的识别、提取、组织、关联与可视化,能够以最少的数据量表达最丰富的知识内涵。

与此同时,知识工程的推行能够将更多数理化、系统化、科学化的数据与信息表达与处理方案引入档案学领域,如探索个性化的档案知识表示方式、档案知识组织的体系架构与描述模型、档案知识推理的规则与模板以及档案资源自然语言处理的模式与算法。诸如以上研究能够有效扩展档案学的研究范围,在保有档案学特色的前提下进一步推动档案学科的数字转型。

5.2模式维度:构建系统化、规范化的档案知识发现机制

目前,我国各类组织机构的档案知识发现项目尚处于起步阶段,各级档案行政管理部门还没有针对档案的知识发现活动制定相应的标准与规范。各单位往往结合特定的档案信息管理系统、档案知识库实现既定任务,知识发现的目标、模式、知识传播的效率不尽相同,也缺乏必要的质量评估与反馈机制。知识工程源起于系统工程和人工智能领域,知识获取、知识表示等技术均建基于逻辑化、体系化的开发理念,其下六个核心组件具有一定的配置顺序与机制,如知识推理以知识表示为前提,知识检索和可视化以知识组织为前提。档案知识工程使得组织的档案知识发现活动进一步规范化、标准化,同时为未来相关政策法规与行业标准的制定提供了借鉴与依据。

5.3价值维度:实现多层次的档案价值识别与挖掘

受限于档案资源的稀缺性、开发利用模式的单一性及档案价值挖掘的成本问题,传统的档案价值挖掘与开发工作表现出显著的一元、线性特征,单件或单卷的档案常常只能转化为一至两种文化或知识产品,这种线性的资源开发与管理模式也间接影响了档案价值的相关理论,制约了学界对档案价值的多样化认知。档案知识工程能够从内容、载体、来源、背景、项目等不同视角切入对档案资源进行多层次维度的知识表示与组织[29],能够同时着手开发多种类型的档案文化产品,如档案史料集合、档案凭证材料、档案资源网站、档案知识图谱、VR档案平台等,对同一类档案资源进行不同形式的表述,识别、定位并发掘出档案的多元价值,综合体现出不同视角下档案价值理论的应用意义。

5.4服务维度:形成基于用户感知与体验的档案知识服务模式

相比于图书情报领域,档案领域的用户研究仍处于初级阶段,档案资源的开发者与档案用户的行为、意愿、认知、取向还存在不匹配之处。知识工程能够同时从内部的资源视角与外部的用户视角切入构建面向用户的档案知识服务模式,进而提升用户满意度。从资源层面看,档案知识工程的实施结果是形成细粒度、可视化、情境化的档案资源服务体系,将一定主题的档案资源置于特定的历史背景,综合利用智能多媒体技术将文本化的档案资源延伸至视觉、听觉、感觉等多个感知系统,用户在其身心融入知识环境的基础上完成档案知识的内化。从用户层面看,用户数据获取与知识挖掘也是档案知识获取的关键步骤,通过用户对档案资源的浏览、评论、点赞、转发等社交网络环境中的行为挖掘,能够较为精确地描绘出档案用户或用户社群的行为画像,从而在档案资源或档案服务平台的推荐过程中有的放矢,构建个性化、交互式、体验式的档案知识服务模式。

6结语

目前,知识工程已在机械制造、医疗卫生、社会管理、信息服务等多个领域得到了应用,在彰显其理论及应用价值的同时表现出了该领域巨大的发展潜力,也为档案知识工程的设计与实施提供了实践经验。随着云计算、语义网与人工智能技术的不断发展,知识工程将在以档案、文化遗产和记忆资源为代表的固化信息研究与实践领域获得巨大的发展契机,并通过档案知识系统的变革、创新与迭代,进一步提升档案知识库、智慧档案馆等档案资源服务平台知识获取、知识理解与知识处理智能水平,推动我国档案事业由“互联网+”向“智能+”迈进。同时促进档案学与计算机、系统科学在以知识工程和人工智能为导向的交叉研究中进一步融合,推动以档案资源开发利用和价值理论为代表的档案学理念与技术的重构与发展。

参考文献

来源:2022.06.27 档案那些事儿微信公众号

原载:《档案学通讯》2021年第3期

Produced By 大汉网络 大汉版通发布系统