研究前沿

文物知识图谱及其在博物馆中的应用——以山西博物院为例

摘要: 导读随着博物馆数字化建设的发展,数字技术在博物馆有了广泛且深入的应用。其中,知识图谱技术在文物知识的关联组织、视觉呈现、数据利用等方面都显示了很强的优势,受到博物馆行业的重视。本文将围绕知识图谱的概念,梳理知识图谱与博物馆的关系,并分享山西博物院知识图谱应用的实践,旨在为将来知识图谱在博物馆的深度应用和创新发展奠定基础。一、知识 ...

导读

随着博物馆数字化建设的发展,数字技术在博物馆有了广泛且深入的应用。其中,知识图谱技术在文物知识的关联组织、视觉呈现、数据利用等方面都显示了很强的优势,受到博物馆行业的重视。本文将围绕知识图谱的概念,梳理知识图谱与博物馆的关系,并分享山西博物院知识图谱应用的实践,旨在为将来知识图谱在博物馆的深度应用和创新发展奠定基础。

一、知识图谱的定义及其在文博

行业的应用


知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱是由节点和边构成的网络结构,其节点可以是实体,或者是抽象概念;边可以是实体属性,或者是实体之间的关系。知识图谱的早期理念来自语义网,其最初理想是把基于文本链接的互联网转化成基于实体链接的语义网络。知识图谱通常存储在图形数据库中,并以图形结构直观呈现出来,即为知识“图”,知识图谱将世界上的各种信息以图形的方式连接起来,让我们能够快速找到相关的信息并看到它们之间的相互关系。

知识图谱是较为典型的交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。近年来,知识图谱的应用开始从通用领域向越来越多的垂直领域扩展,文博领域即是其中之一。文物知识图谱就是知识图谱在垂直领域的应用,它增强了用户对文物知识的直观体验,更易于为用户所接受,同时为博物馆更好地挖掘传播地区历史文化、创建具有吸引力的文化产品、提供良好的知识服务指出了新路径。

文物知识图谱实际是一种描述文物及其相关知识的语义网络,其目标是在语义层面描述文物实体之间的关系。文物知识图谱采用图结构对文物相关数据进行结构化的表示,对于非结构化数据,例如文物的描述文本、音频和图片等,需要对其通过实体识别、抽取以及属性和关系抽取,得到“实体—属性—实体”“实体—关系—实体”的三元组结构化数据。然后,将文本中指向同—实体的不同表述聚合在一起,并解决同名实体存在的一词多义歧义的问题,实现对文物信息的智能理解与知识链接来完成文物知识图谱的构建。对于某些文物的音频和图像数据,还需要进行特征提取、内容理解和相关属性识别,并与其他相关知识进行链接和融合,方可实现对文物知识的共享和复用。构建文物知识图谱的核心是全面描述文物实体的关键信息以及文物之间的关系,从而提高文物信息管理的效率和知识获取的准确性。

二、博物馆文物知识图谱的

应用现状

(一)文物知识图谱与博物馆的关系


近几年来,文物知识图谱在世界多个国家得到了应用,出现了一些具有代表性的文物知识图谱项目,世界上大量的博物馆已经广泛使用CIDOC-CRM数据模型,将博物馆的数据映射到该模型上。在推动博物馆文物数字资源和相关资源的语义描述、语义关联和关联数据网络建设中,文物知识图谱扮演的角色至关重要。

1. 文物知识图谱有助于博物馆构建完善的知识体系

传统上,博物馆数字化采集和藏品管理系统所拥有的信息往往围绕单件文物进行组织、管理,缺乏文物之间、文物知识之间关系的展现。文物知识图谱正可以发挥其知识抽取、知识融合的作用,从数量庞大、来源复杂、缺乏统一结构的数据中挖掘文物知识之间的关系,建立起文物之间的关联网络,对文物知识进行科学组织,使博物馆具备持续集成知识的能力,为其展示、研究、教育等工作提供知识供给,有助于更好地解读与阐释文物背后的故事。

2. 文物知识图谱有助于博物馆学术研究的深入开展

文物研究是博物馆的核心工作之一,通过文物知识图谱可以集成大量的、有组织的文物数据和信息,为研究人员提供丰富的研究资源和数据支持。同时,文物知识图谱也可以使博物馆有效地组织、分类和存储文物信息,提高了文物知识的可检索性和共享性,不仅有助于博物馆管理工作的系统化和高效化,也方便博物馆与外界学术机构、研究者的合作,从而进一步推动文物研究领域的发展与创新。

3. 文物知识图谱有助于提升博物馆观众的服务体验

一方面,文物知识图谱可以增强文物知识搜索的准确性,为观众提供个性化的学习路径和互动体验,从而提高他们的学习兴趣和参与度。另一方面,借助数据可视化技术,博物馆能够呈现更为生动、直观的数字展示方式,丰富博物馆的知识供给内容和供给方式,拓展博物馆知识展示的边界,激发观众对文物知识的主动探索与深度理解。

(二)文物知识图谱在博物馆的应用现状

1. 辅助决策的应用

知识图谱可以将博物馆业务的各方面信息进行关联和整合,帮助博物馆更好地组织和管理其数据与信息,为管理人员进行管理提供基于数据驱动的决策依据。例如,南京博物院“数据可视化平台”,运用物联网、大数据、知识图谱等信息技术,对展览、公众服务等方面进行实时全方位的数据监测与分析。

2. 展览展示的应用

数字化展示已经成为博物馆服务公众的重要形式,可通过知识图谱将馆藏文物的本体信息、历史背景、文化内涵、工艺特点等信息进行数字化处理与组织表达,利用新媒体展示技术将文物知识以更加丰富多样的形式直观呈现给公众。

3. 社教服务的应用

知识图谱将博物馆的展品信息和历史文化知识进行整合,让观众了解展品之间的关联和背景故事,为其提供更深入、更全面的学习体验。此外,文物知识图谱在提升观众黏性、拓展教育功能等方面都有应用价值和发展趋势。

4. 保护研究的应用

知识图谱可以帮助博物馆建立文物的信息档案,记录文物的历史、材质、保存状况等信息,这有助于工作人员更科学地制定文物修复和保护方案。此外,知识图谱也可以为博物馆的学术研究提供数据和知识支持,进一步提升研究效率、拓展研究视野。

文物知识图谱在博物馆的应用虽取得了一定的成绩,但存在知识内容的科学性和准确性不高、知识建库的人工整理和智能抽取的统一性未形成、知识图谱可视化形式大同小异等问题。

三、山西博物院的实践与评估

山西博物院从博物馆业务和知识生产角度出发,努力探索知识图谱在博物馆的应用。2017年山西博物院构建了国内首个文物知识图谱,之后在文物数字化保护及国家重点研发项目中也有了一些新的工作进展,积累了经验。主要成果体现在通用文物知识图谱构建、青铜器文物知识概念参考模型构建以及知识图谱的文博创新应用等方面。

(一)构建通用文物知识图谱


1. 文物知识图谱数据来源及加工

博物馆保存有大量藏品本体数据及相关的学术论文、专著、考古报告、报道文章、书籍等形式存在的知识信息,其蕴含着丰富的文物知识,是构建文物知识图谱的重要数据来源。数据按照结构可以分为结构化数据、半结构化数据和非结构化数据。针对不同的数据类型,应采用针对性的处理方式,将所有数据按照资源描述框架(RDF)的要求进行处理,以形成通用型的文物知识图谱。其处理方式分别如下。(1)结构化数据的R2RML转换(图1)。(2)半结构化数据的抓取及RDF转换(图2、图3),包括网络数据的爬取以及HTML数据向RDF数据的转换。(3)非结构化数据的众包标注(图4)。

图1 结构化数据——文物知识图谱数据存储建立过程


图2 半结构化数据——网络URL数据抓取过程


图3 半结构化数据——HTML数据转为RDF数据


图4 非结构化数据——文物知识图谱众包平台框架图


2. 通用文物知识图谱构建

在前述数据加工的基础上,文物知识图谱的构建大体包括三个步骤。首先,需要对所搜集的大量文物数据进行清洗、去重和分类等处理,确保数据的一致性和准确性;其次,利用自然语言处理(NLP)和知识抽取、知识融合技术,从文本数据中提取实体、关系、属性等关键信息,建立文物之间的关联关系,构建文物知识组织表达模型;最后,以图数据库或RDF的形式表示和存储文物知识图谱,以便未来对文物知识图谱进行展示和利用。

山西博物院经过多年的文物数据资源建设,积累了大量的数据,这些数据原来都保存在电子表格和信息系统中。在构建文物知识图谱的过程中,通过整理现有文物数据,获取了比较全面的文物本体信息,并选取2000件/套青铜器文物及与之相关的山西省墓葬/遗址,通过关联文物、人物、事件等实体,按照《通用文物知识组织与表达模型规范》,将数据进行结构化处理。此外,通过网络抽取通用文物知识,建立了一个包含文物实体3万多个、事实数量127多万条的通用文物知识图谱数据库。图谱的数据用图数据库来进行存储,在借鉴一些行业本体建模方法的基础上,尝试从事文物本体模型构建,并进行一些可视化的实验。在图谱系统中,可以持续做知识的管理更新与检索,以图像化的形态在文物知识范围中演绎出一幅具有文物属性特征与关系的语义网络,为文物的知识共享和交流展示提供了新的可能。

(二)构建青铜器文物知识组织表达模型


1. 青铜器文物模型构建

青铜器文物知识组织表达模型是通用模型在专题文物领域的延伸和补充,有助于丰富专题文物的关联知识数字化建模和知识组织方式。青铜器文物知识概念参考模型是在通用文物知识表达模型的基础上,借鉴CIDOC-CRM和AAT等国际上广泛使用的一些文物领域的概念模型,在本体知识、纹饰知识、铭文知识、制作工艺知识和器形知识共五方面对青铜器文物特有的语义进行补充和扩展,形成青铜器文物知识组织表达模型(图5)。

图5 青铜器文物知识组织表达模型

为使模型更专业化,我们对现有青铜器文物数据结构和术语标准化情况进行了梳理,将藏品管理系统中青铜器类文物采用的本地标准化术语,与《博物馆藏品信息指标著录规范》《铜器类元数据规范》《铜器类元数据著录规则》等相关文件进行了映射。同时,进一步定义核心元素作为发展青铜本体的基础数据结构和内容,根据元数据元素和其他相关重点知识信息与知识本体标准CIDOC-CRM进行映射,研究确立映射路径,提出青铜器文物知识本体的实体与属性。此外,基于青铜器文物的出土地、背景文化、展览/借出史等亦需要进一步的实体和属性关系表述,而分别建立了相应模型。

2. 青铜器文物模型验证

以青铜器文物知识组织表达模型为指导,对院藏青铜器文物和青铜器纹饰进行建模,并以此来验证模型的可用性。以文物“汉胡傅酒樽”结构化数据为例,将现有文物数据映射到表达模型中进行建模,具体建模如表1所示。建模的过程证实表达模型是确实可用的。

表1 文物“汉胡傅酒樽”建模过程表


(三)公众服务创新应用


1. 个性化推荐应用

山西博物院通过结合用户需求与文物之间相似度的方法实现个性化文物推荐。在计算文物相似度时主要使用文物的属性信息和文物的文字描述信息。文物属性信息能够反映文物的主要特征。用户在浏览某一文物时,可能会对其他具有相同属性文物产生兴趣。基于这一假设,通过对文物属性值进行加权集合运算实现基于文物属性的相似度计算。文物的文字描述同样包含着丰富的语义信息,采用语义BERT模型来计算文物之间的文字描述相似度,并对上述多种相似度进行加权。

把这一推荐方法应用于导览App,App基于通用文物知识图谱,从兴趣路线推荐、相关文物推荐、文创产品推荐等功能出发,给观众带来了良好的参观体验。它能够根据用户当前浏览文物的属性的优先级,结合文物形态描述相似度的算法加权进行相关文物推荐。


2. 知识问答应用

基于文物知识图谱开发了一种无监督的文物知识智能问答方法,该方法通过设计自监督学习任务,使得机器阅读理解模型能够从无标注的文本语料中自动学习问答所需的语言理解和答案抽取能力。

在将文物知识智能问答系统嵌入到山西博物院导览App后,可以解决文物知识互动过程中公众的查询或提问与专业文物知识表达之间存在的巨大语义鸿沟。文物知识智能问答应用通过问答的形式实现,既有引导式的问答推送,又有针对性的一问一答。根据用户输入的问题,智能问答技术服务与导览后台的文物知识资源深度结合,实时获取问题的答案,将观众感兴趣的信息及时展示出来,满足了观众获取文物知识的需求,提升了知识服务的有效性。

(四)文博研究创新应用


针对博物馆和文物、考古工作者之间存在的文物数据、文物资源交流不畅的问题,山西博物院基于文物知识图谱设计开发了国内首个文物知识辅助考古研究系统。系统提供精准语义检索功能,研究者可根据需求设定特定的搜索条件以检索实体类别和知识关系,同时支持按照逻辑关系对搜索条件进行自定义拼接,实现对文物知识的精确查找,促进文物知识的高效利用,提高文博、考古行业的研究效率。

其中语义检索,通过对用户自然语言问句或搜索关键字进行语义解析,使系统透过用户搜索关键字的表象从更为本质的语义层次获得用户的搜索需求,并在此基础上映射成能够在知识图谱的知识网络上进行计算和查询的语义查询语言,然后根据语义上的逻辑关系从知识图谱中通过语义检索、语义推理和语义计算获得用户需要的准确而全面的搜索结果。

青铜器文物辅助断代与研究是这个辅助研究系统的另一个重要尝试。系统以纹饰、器形等为筛选条件,结合青铜器文物分类体系和青铜器纹饰分类体系,通过数据比对、共性抽取、验证分析等手段,挖掘出器形相近且具有相似纹饰的文物,从而辅助考古工作者对器物进行断代和研究。

四、余论

知识图谱不仅是一个技术概念,更是一种强大的工具,借助知识图谱可以在文博领域实现信息的有效组织、管理和应用。文物知识图谱在博物馆的应用已然覆盖了服务、展示、研究等博物馆核心业务,今后将在博物馆业务中发挥越来越重要的作用。但博物馆要用好知识图谱,尚需要关注以下几点。

其一,加强文物基础数据建档工作。以“一普数据”为基础,结合博物馆自身馆藏文物特色,按照已有的数据编写标准,制定文物数据录入规范,有计划地完善补充数据,根据实际需要扩展必要字段,进行数据内容的编写。

其二,创新文物知识图谱构建方法。文物知识图谱目前虽然刚刚开始建设,然而其他文化领域如图书馆中已有不少成熟的方法和案例值得借鉴,可有针对性地应用在文物领域知识图谱的创建之中,对于文物知识图谱的快速推进具有一定的意义。

其三,改进面向文物领域的知识问答系统的设计。目前问答系统只能回答一些简单的问题,不能进行推理与统计。一方面可以改进搜索引擎加上语音功能,由专业工作人员定期更新相关文物数据,不断完善知识库;另一方面所构建的文物知识问答模型,可引入人工智能。

其四,深化知识图谱语义信息理解。当前博物馆的文物知识图谱应用很大程度上仍然被视作普通的图像关联,图谱的可视化也只是作为展览的辅助用具,缺少对于知识图谱语义信息与博物馆知识服务相结合等方面的进一步思考。因此,需要考虑在原有藏品数据库的基础上,增加藏品数据的规模,以便尽可能地使从藏品库中抽取的藏品实体和知识图谱中所相对应的实体得以有效关联。

本文改编自《文物知识图谱及其在博物馆中的应用——以山西博物院为例》,原文刊载于《博物院》2024年第3期(总第45期)。作者:秦新华,山西博物院。


分类: 中文 研究 研究前沿
关键词:

img

地址:陕西省西安市碑林区友谊西路68号小雁塔历史文化公园
邮件:secretariat#iicc.org.cn
电话:(+86)029-85246378