基于事件抽取的学科建设知识图谱构建与应用

引用本文

李家瑞, 李华昱, 闫阳, 付亚凤. 基于事件抽取的学科建设知识图谱构建与应用. 计算机系统应用, 2022, 31(11): 100-110.http://www.c-s-a.org.cn/1003-3254/8798.html

Li JR, Li HY, Yan Y, Fu YF. Construction and Application of Discipline Construction-oriented Knowledge Graph Based on Event Extraction. Computer Systems and Applications, 2022, 31(11): 100-110(in Chinese).http://www.c-s-a.org.cn/1003-3254/8798.html

基于事件抽取的学科建设知识图谱构建与应用

李家瑞, 李华昱, 闫阳, 付亚凤

中国石油大学(华东) 计算机科学与技术学院, 青岛 266580

收稿日期：2022-02-22; 修改日期：2022-03-30; 采用时间：2022-04-13; csa 在线出版时间：2022-07-15

基金项目：山东省自然科学基金面上项目(ZR2020MF140); 中国石油大学(华东)研究生创新工程(YCX2021128)

通讯作者：李华昱, E-mail: lhyzj@upc.edu.cn.

摘要：学科建设是高校发展的核心, 随着高校学科建设的不断深入与强化, 学科建设信息持续增加, 且以离散的文件组织形式难以对学科建设成果进行高效的管理, 不利于后续分析与评估工作的开展. 针对此问题, 对学科建设知识图谱的构建及相关应用进行了研究. 首先通过BERT-BiLSTM-CRF模型对学科建设文本进行事件抽取, 并使用爬虫进行相关知识的补充. 然后选择属性图模型存储知识, 完成学科建设知识图谱的初步构建. 基于构建好的知识图谱, 搭建了学科建设可视化系统, 并引入最小斯坦纳树算法实现智能问答应用. 最后, 通过对学科建设事件抽取与智能问答方法进行实验分析, 验证了本文所提出方法的有效性.

关键词: 知识图谱学科建设 BERT-BiLSTM-CRF 斯坦纳树智能问答事件抽取

Construction and Application of Discipline Construction-oriented Knowledge Graph Based on Event Extraction

LI Jia-Rui, LI Hua-Yu, YAN Yang, FU Ya-Feng

College of Computer Science and Technology, China University of Petroleum, Qingdao 266580, China

Abstract: Discipline construction is the core of the development of colleges and universities. With the deepening and strengthening of discipline construction in colleges and universities, the information on discipline construction increases continuously. Nevertheless, the results of discipline construction can not be effectively managed in the manner of discrete document organization, which is not conducive to subsequent analysis and evaluation. To solve this problem, this study focuses on the construction and further application of discipline construction-oriented knowledge graphs. For this purpose, events are extracted from discipline construction texts by the BERT-BiLSTM-CRF model, and related knowledge is supplemented by the crawler. Then, the property graph model is selected to store knowledge, and a preliminary discipline construction-oriented knowledge graph is thereby built. Subsequently, this knowledge graph is availed to build a visualization system for discipline construction, and the minimum Steiner tree algorithm is adopted for the application of intelligent question answering. Finally, the validity of the proposed method is verified by experimental analysis of the methods of discipline construction-oriented event extraction and intelligent question answering.

Key words: knowledge graph (KG) discipline construction BERT-BiLSTM-CRF Steiner tree intelligent question answering event extraction

学科是高等学校事业发展的基础, 其建设水平代表着高校的办学质量和竞争优势^[1]. 近年来, 随着我国建设世界一流大学和一流学科方案的提出, 高等教育的水平和质量在突飞猛进, 高校发展也处于激烈的竞争之中. 作为高校工作的核心, 学科建设对于高校的发展愈发重要. 因此, 加强对高校学科建设现状的全面掌控, 分析实际存在的问题并寻找有效、合理的解决途径, 对于促进学科建设、推动高校发展有着极大的促进作用. 由于学科建设具有综合性强、覆盖范围广等特点^[2], 通过传统的文件整理方法难以对学科建设的成果进行高效的管理, 而且后期对其考核的工作难度大, 容易消耗大量的人力和时间. 因此研究如何将分散、无序的高校学科建设成果, 从科研水平、人才培养、基地建设等维度进行全面整合, 并实现学科建设信息的高效查询和直观显示, 对于了解高校学科建设水平具有很强的现实意义.

2012年, Google首先提出知识图谱(knowledge graph, KG)的概念, 旨在融入现有的搜索引擎以提高搜索结果的质量. 知识图谱以图的形式对有关联的实体和概念进行融合, 可以对现实世界的事物和它们之间的关系进行形式化的描述, 其基本单位是(实体, 关系, 实体)三元组和“实体-属性”值对^[3]. 作为大数据时代下一种新型高效的知识组织方式, 知识图谱已经取得了极大的发展, 比如规模较大的通用知识图谱Freebase、DBpedia、Wikidata等, 其中覆盖了现实世界中大量的常识性知识. 同时知识图谱技术在诸多领域中都有相关的研究与实现, 如搜索引擎、法律法规^{[4, 5]}、医疗诊断^[6,7]等, 为目标领域的建设发挥了积极的促进作用, 被认为是推动互联网和人工智能发展的核心驱动力之一.

本文面向高校计算机学科领域, 结合知识图谱方法构建学科建设知识图谱, 对高校的学科建设成果进行全面的信息整合, 同时研究知识问答和可视化展示等应用技术, 使得相关人员能够更加直观地了解高校的学科建设水平. 本文首先通过深度学习方法, 以事件抽取的方式从文本中抽取出学科建设事件触发词和事件元素, 并通过爬虫爬取网络资源进行领域知识的补充. 之后基于属性图模型, 对获取到的知识进行存储, 实现学科建设知识图谱的构建. 然后, 针对自然语言形式的用户提问, 利用知识图谱的图型结构, 研究了一种基于斯坦纳树的智能问答方法. 最后搭建了学科建设可视化系统, 整合相关信息查询、多关键词搜索、智能问答等多种功能, 并将查询结果以力导向图等方式进行呈现. 本文的主要技术路线如图1所示.

本文的组织结构如下: 第1节介绍基于BERT-BiLSTM-CRF和爬虫的学科建设知识图谱的构建过程; 第2节介绍基于斯坦纳树的智能问答方法; 第3节对本文采用的事件抽取模型和智能问答方法进行实验分析; 第4节介绍学科建设可视化系统的搭建与评估; 第5节为结论与展望.

图 1 技术路线图

1 学科建设知识图谱构建 1.1 学科建设本体模型

在构建知识图谱时, 通常有两种构建思路: 自顶向下和自底向上. 其中, 自顶向下的构建方式是指先为知识图谱定义好本体与数据模式, 再将实体关系等加入到知识库中; 而自底向上指的是先从一些开放的数据中提取出知识, 选择其中置信度较高的加入到知识库中, 然后再构建上层的本体模型. 由于领域知识图谱是面向具体的领域构建, 只有包含高准确度的知识才能为上层应用提供研究基础, 因此通常采用自顶向下的构建流程. 在自顶向下构建知识图谱时, 需要首先定义好本体模型与数据模式. 本体作为某一具体领域内知识的规范化描述, 对领域知识图谱的类集、关系集、属性集等进行了形象化定义, 是对知识图谱模式层的管理^[8]. 通过构建本体模型, 可以形式化地表达出特定领域中各类概念及其间关系, 为用户提供对该领域知识的共同理解, 并对实体、关系以及实体属性等进行约束规范, 作为后续知识抽取与组织的指导.

在经过查找资料、咨询专家等形式的研究后, 使用Protégé工具构建了学科建设知识图谱的本体模型^[9], 本体模型通过OntoGraf功能进行展示的效果如图2所示.

图 2 学科建设本体模型

本体中主要包含“科研类事件”“会议类事件”“建设类事件”“视察调研类事件”共4个事件类实体类别, 以及“时间”“地点”“人物”“院校机构”“会议”“期刊”“论文”“专利”“项目”共9个事件元素类实体类别. 概念之间通过多种语义关系相互关联, 关联关系可以使用owl中的ObjectProperty进行形式化描述. 例如, 会议类事件相关的语义关系通过owl表示如下.

<owl:ObjectProperty rdf:about="#会议时间">