当前位置:首页
> 工作动态 > 业务与新知
网络信息资源归档:建设互联网“记忆宫殿”

发布时间:2022-10-21 浏览次数:

引言

随着信息逐步从现实世界向网络空间迁徙,互联网承载了越来越多人类共同的社会记忆。然而,更新快、互动性强的特点在使其汇聚大量信息的同时,信息的碎片化与易逝性也十分突出。或许多年前你浏览过的某个网页,因长时间无人维护而无法访问;或许你访问的某个网页因种种原因被管理员删除,只留下大大的“404 Not Found”;或许你曾记录生活的平台因停止运营而与你的记忆一起永久封存……为保存网站的前世今生,及时捕捉记忆的瞬间,面向网络信息资源存档的实践应运而生。今天小编就带你了解国内外网络信息资源存档代表性实践情况,走进档案人建设的互联网“记忆宫殿”。

一、网络信息资源存档的国际代表性实践

互联网档案馆

1. 项目概述

“互联网档案馆”即1996年美国布鲁斯特·卡利(Brewster Kahle)创办的Internet Archive(IA),它是世界范围内首个按主题分类、有选择地对具有长远保存价值的网络信息进行捕获、归档、存储、开放利用的机构,也是目前世界范围内对互联网信息资源保存历史最久远、范围最广、内容最完善的机构。

2. 存档策略

作为最知名的广泛式采集项目,IA采用采集软件遍历URL方法进行采集。由于网页是通过HTTP 协议组织起来的,因此以一个网页为入口,往往可以找到其他页面。通过与Alexa Internet(提供关于因特网基础信息的服务)合作,IA得以获得大量网页资源的数据。此外,IA还针对突发事件以及一些重要专题进行数据采集。

3. 项目成果

IA收录了包括网页、软件、电子书、音频、视频等在内的大量互联网资源,用户可以根据需要进行检索、浏览及下载。截至2022年8月6日,IA已采集超过6250 亿个网页及400万张图片,提供超过3800万本电子书、1400万份音频资料、700万份视频资料以及790,000个软件程序。此处以网页及软件程序为例进行介绍。

● Wayback Machine:网页时光机

1996年,IA开发了网页档案浏览功能,即Wayback Machine。用户可以利用该功能查看过去的网站,包括已经失效的网页的快照。

Wayback Machine主页  网址:https://archive.org/

用户只需在IA网站上输入所需网站域名,并在时间条上选择所需时间点,即可浏览该网站在该时间点的快照信息。

时间条与时间节点

2004年7月24日ICA官网快照

● Software Collection:软件档案库

IA也保存了大量曾经存在于互联网的软件。2018年10月,网站总监Mark Graham表示互联网档案馆收录的内容正不断增长,并推出Commodore 64 模拟器,“理论上里面的每个软件都经过了广泛的测试,可以像往年一样正常工作”。因此,用户只需在IA软件档案库中查找,便可穿越时光,体验20世纪80年代的主机游戏。

  

收录于Internet Archive的经典游戏截图

澳大利亚Pandora项目

1. 项目概述

澳大利亚国家档案馆Pandora项目是国际范围内知名信息资源归档项目之一,该项目主要面向澳大利亚网络资源,按主题或事件收集网络资源,涵盖包括政治、经济、艺术、历史、环境等多个领域。该项目从1996年运行至今,对世界网络信息资源的长久保存具有重要借鉴意义。

Pandora官网 网址:http://pandora.nla.gov.au/

2. 存档策略

Pandora项目采用“选择性采集为主,全面性采集为辅”的策略,在选择性保存有重要价值的网络信息资源的基础上,定期对.au域名的网站进行大规模的全面性采集。为此,澳大利亚国家图书馆自主研发了集成数字归档系统PANDAS,该系统针对归档工作流程设计,融入了网络信息资源归档的相关技术标准和要求,以方便不同地理位置的保存主体进行归档。Pandora获得网络信息资源版权所有者授权后,使用PANDAS系统的HTTrack爬虫工具采集网络信息。

3. 项目成果

Pandora项目涵盖大量网络资源,且资源类型十分丰富。截至2020年6月26日,该项目归档题名量累计达到65036项,文件归档数达842450515件,数据规模达53.93TB。(数据来源:Pandora官网,该网站数据更新至2020年6月)

Pandora官网统计数据

● 从Pandora到AWA

目前,澳大利亚国家档案馆将Pandora项目进一步发展,推出澳大利亚网络档案馆(Australia Web Archive,AWA)项目。该项目以收集网络信息资源为主要目的,存档对象包括网络新闻、机构官网,以及社交网络或博客等个人网站。

2000年悉尼奥运会官方网站,收录于澳大利亚网络档案馆

AWA由以下三部分组成:

(1)Pandora档案馆——1996年起,是澳大利亚首个网络归档项目,由澳大利亚图书馆主办。其收集内容具有选择性,通常按主体或事件收集。

(2)澳大利亚政府网络档案馆——澳大利亚联邦政府网站集合,每年进行多次收集。

(3)针对澳大利亚域名网站的数据捕获——该部分内容占据AWA馆藏80%以上,每年至少定期记录一次采用澳大利亚域名(.au)的网站内资源。

目前,AWA与澳大利亚多所机构合作,收集澳大利亚所有司法管辖区组织的网络信息资源以发展AWA的综合数字馆藏,实现使文化能够以数字形式进行管理与探索的目的。

AWA合作机构示意图

英国政府网络档案馆UKGWA项目

1. 项目概述

UKGWA(UK Government Web Archive)项目于2003年8月由英国国家档案馆主办,由英国国家档案馆网站档案馆团队、互联网记忆基金会、MirrorWeb公司以及《公共文件法》规定的公共文件主体机构的网站管理者和部门文件官员合作进行。UKGWA项目致力于为使用者提供不间断的网络信息服务,归档范围主要包括所有的中央政府部门、非部委公共机构、执行机关、皇家委员会、国家医疗服务体系以及区域发展机构等所建立的网站以及它们在社交媒体平台上建立的官方账户发布的内容。

UKGWA主页  网址:https://www.nationalarchives.gov.uk/webarchive/

2. 存档策略

UKGWA项目与MirrorWeb合作,依照各方协定锚定目标网站,并依照时间表,通过爬虫远程获取目标网站的内容。大部分网站一年捕获两次,而计划关闭的网站则会在关闭前8周至6个月期间内至少进行一次捕获。对于某些网站存在的无法被直接爬取的内容,如音视频、Flash组件、依赖于HTTPPOST请求的内容等,将由网站所有者或管理者提前告知UKGWA档案馆团队,并提供合适的替代方案。捕获得到的网站内容将被置于一临时URL内以进行检查与修正,此过程结束后页面将被转移至一永久URL下,通过编目和索引处理,正式成为英国政府网络档案的一部分。

3. 项目成果

UKGWA项目目前已经归档了超过5000个网站的信息资源,用户可通过网页链接直接搜索;此外,UKGWA还归档了政府机构官方社交媒体账户、伦敦2012年奥运会与残奥会官方账户以及其他由政府机构主导的与政治、社会生活重要领域相关的账户所发布的公开信息等,包括近百个Twitter账户和YouTube视频账户。

值得一提的是,UKGWA从横向和纵向两个层面组织档案资源。横向组织包括字顺法及分类法两种,字顺法即将网站名称按首字母进行排列,得到A-Z列表,用户可根据网站首字母进行浏览与检索;分类法即将所有档案资源按Word、Excel、Text、PDF、HTML、CSV6个文件格式聚类,社交媒体上的资源则按产生账户进行聚类。纵向组织即将网络信息资源(如同一网站在不同时间抓取的网页、同一社交账户在不同时间抓取的内容等)按实践进行排列,以方便用户按时间顺序检索馆藏资源。

横向组织-字序法

纵向组织-时间列表

二、我国网络信息资源存档实践概况

早在21世纪初,我国图情档工作者也意识到了网络信息资源归档的重要性,并在此基础上开展了一系列实践。

我国网络信息资源存档实践现状

事实上,我国非常重视网络信息资源归档工作。2016年《全国档案事业发展“十三五”规划纲要》明确指出,要“研究制定重要网页资源的采集和社交媒体文件的归档管理办法”;2017年的《政府网站发展指引》再次强调重要网页归档的价值。2019年的《政府网站网页归档指南》,为指导国家机关及其档案部门规范开展网页归档工作提供了重要依据。2020年底发布的《OFD在政府网站网页归档中的应用指南》,提出基于OFD开放版式文档格式的网页归档新模式,进一步推动了相关工作的开展。

2003年,国家图书馆开展了我国首个网络信息资源存档实验,开启网络信息资源采集与保存实验项目WICP(Web Information Collection and Preservation);同年,北京大学计算机网络与分布式系统实验室开发建设了中国网页历史信息存储与展示系统“中国Web信息博物馆”,旨在收录所有中文网站的网页信息;2019年,国家图书馆与新浪网合作,开启了国家图书馆互联网信息战略保存项目,旨在建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,保存互联网时代的国家记忆和数字遗产。项目通过与国内重点数字文化生产和保存机构的合作, 推动互联网信息的社会化保存与服务, 构建国家互联网信息资源战略保障体系。但令人遗憾的是,这些项目目前均处于停滞状态,或是启动后再无下文,或是曾建成项目网站,但如今因无人维护而无法访问。

我国网络信息资源存档实践现存问题

在国家的重视与基层工作者多年的努力下,我国政府网页归档工作实际上已取得一定成果,但宏观而言,我国网络信息资源归档仍存在一些问题。

(1)“重管轻用”:由《政府网站网页归档指南》中对网页归档的定义可知,目前我国政府网络信息资源存档实践仅围绕着收集、整理、移交、接收等过程开展,而在利用服务方面尚有欠缺。已归档的政府网页往往不予公开,或公众需要经过较繁琐的流程、等待较长时间才能获取所需档案,导致社会大众无法有效利用已归档的网络信息资源。

(2)存档资源范围待拓展:目前我国的网络信息资源归档工作的对象多为政府网站,而其他各类网站,如新闻网站、视频网站、社交媒体等的信息归档工作均处于空白状态。但从用户利用需求的角度来看,新闻网站、社交媒体等网站的信息资源归档同样重要,却常存在信息失存、失真等现象,有待通过专业的档案化管理实现高质量的长期存储与开发利用。

(3)管理创新性不足:在我国现行的文件与档案管理业务流程中,档案部门往往是根据文件归档制度或档案接收制度等接受有关机构的档案移交,“被动性”较为明显。而网络信息资源相较于传统的纸质文件更新速度快,且数据规模大大增加,这要求档案部门主动出击,实施对网络信息资源的主动捕获、鉴定和存储,以实现符合新时代要求的网络信息资源存档目标。

结语

微软关闭运营四年的博客服务,百度关闭运营八年的博客服务,而现在形形色色的APP、网站、社区你方唱罢我登场,互联网需要这样一个地方,当面临资本交替、网站关停、技术风险等情况时,留存在网络世界中的证据、知识、记忆也依旧有迹可循。

正如国家图书馆馆长饶权在中国国家图书馆互联网信息战略保存项目开幕式上所言:“启动互联网信息战略保存项目,旨在着眼于国家信息安全与社会信息化建设的长远发展,及时、有效地记录时代文明发展的脉络。”网络信息资源归档,不仅记录着网络,更记录着我们这个时代。而对于档案工作者们而言,要做的远不止简单的信息爬取与归档,更要围绕用户需求,以多种方式提供利用服务,让“互联网有记忆”。

参考文献

[1]吴倩,王运彬.网站时光机:美国网页存档模式探索——以Internet Archive为例[J].图书馆,2021(07):91-97.

[2]周文泓,苏依纹,贺谭涛,黄小宇,李彦可.重大事件网络信息存档的全球实践进展研究及其启示[J].情报理论与实践,2021,44(01):42-49.DOI:10.16353/j.cnki.1000-7490.2021.01.006.

[3]陈慧,乐茜,罗慧玉,罗思静.社会记忆视角下网络信息资源归档路径探析——以PANDORA项目为例[J].数字图书馆论坛,2020(06):15-21.

[4]周文泓,陈怡,张玉洁,代林序,王璠.英国国家档案馆网络归档的案例分析及其启示[J].档案管理,2018(04):4-7+74.DOI:10.15950/j.cnki.1005-9458.2018.04.003.

[5]顾浩峰,赵芳,王前.关于英国政府网站网页归档项目的思考与借鉴[J].北京档案,2022(01):46-50.

[6]周毅.网络信息存档:档案部门的责任及其策略[J].档案学研究,2010(01):70-73.DOI:10.16065/j.cnki.issn1002-1620.2010.01.020.

文案 | 李昕辰

来源:ICA中宣组 国际档案理事会ICA 2022-09-04 08:00 发表于湖北

打印本页关闭窗口

Produced By 大汉网络 大汉版通发布系统