计算机系统应用  2021, Vol. 30 Issue (10): 21-30   PDF    
面向知识图谱的知识推理综述
封皓君, 段立, 张碧莹     
海军工程大学 电子工程学院, 武汉 430033
摘要:随着智能化水平的不断提高, 每时每刻都有大量的新知识产生, 知识图谱逐渐成为我们管理知识的工具之一. 但现有的知识图谱仍然存在属性缺失、关系稀疏等问题, 同时还存在大量噪声信息, 导致图谱质量不佳, 易对自然语言处理领域中的各类任务造成影响. 面向知识图谱的知识推理技术作为目前的研究热点, 是解决该问题的主要方法, 其通过模拟人的推理过程完成对图谱信息的完善, 在众多应用中有较好表现. 以知识图谱为切入点, 将知识推理技术按类别划分并分别阐释, 详细分析该技术的几种应用任务, 例如智能问答、推荐系统等, 最后对未来主要研究方向进行展望, 提出几种研究思路.
关键词: 知识图谱    自然语言处理    知识推理    智能问答    推荐系统    
Overview on Knowledge Reasoning for Knowledge Graph
FENG Hao-Jun, DUAN Li, ZHANG Bi-Ying     
College of Electronic Engineering, Naval University of Engineering, Wuhan 430033, China
Abstract: As the intelligence level grows, a large amount of new knowledge is generated all the time, and knowledge graph has gradually become one of the tools for knowledge management. However, the existing knowledge graph still has some problems, such as missing attributes, sparse relations, and massive noisy information, which leads to poor graph quality and is easy to affect various tasks in the field of natural language processing. As a research hotspot, the knowledge reasoning technology oriented to the knowledge graph is the main method to solve this problem. It improves the information of the knowledge graph by simulating the human reasoning process, with a good performance in many applications. Taking the knowledge graph as the pointcut, this study classifies and explains the knowledge reasoning technology by categories and elaborates on several application tasks of the technology, such as intelligent question-answering and the recommendation system. Finally, it forecasts the main research directions in the future and puts forward several research ideas.
Key words: Knowledge Graph (KG)     natural language processing     knowledge reasoning     intelligent question-answering     recommendation system    

1 引言

在信息化时代背景下, 随时都会产生大量的新知识, 如何完成海量知识的高效管理和利用成为亟待解决的问题之一, 知识图谱(Knowledge Graph, KG)为我们提供了一种手段. 随着计算能力的进步, 依赖人工构建的知识图谱无法满足智能性、即时性的需求, 知识推理技术应运而生. 面向知识图谱的知识推理技术则是知识图谱下游任务中重要的一部分, 同时也是实体链接、智能问答等任务的基础, 对于知识图谱的补全以及知识清洗(提升知识库纠错能力)有重要意义.

1.1 知识图谱

知识图谱是谷歌公司于2012年提出的概念, 被看作是一种反映客观世界的语义网络, 其中蕴含丰富的关系模式, 最初被用来完善谷歌自身的搜索引擎. 知识图谱往往被表述为<实体-关系-实体>或<实体-属性-属性值>的三元组形式, 以<16舰-搭载-歼15>和<16舰-完工时间-2011年>为例, 在第1个三元组中, 头实体是“16舰”, 尾实体是“歼15”, 他们之间关系是“搭载”; 第2个三元组中, 实体是“16舰”, 属性是“完工时间”, 值为“2011年”. 传统依赖人工的知识图谱构建方法不能很好地包含所有知识, 同时存在噪声信息, 导致图谱稀疏, 并且可能存在错误三元组, 大规模知识图谱YAGO通过抽样宣布其存在大约5%的错误三元组, 这就需要对知识推理技术进行研究. 与传统推理方法不同的是, 面向知识图谱的知识推理需要遵循开放世界假设(open world assumption), 未声明的三元组无法判断真假, 同时所包含的谓词也几乎都是二元的. 随着计算能力的进步, 人们寄希望于用计算机来解决图谱的推理问题. 然而计算机的优势在于计算能力, 对于人类能做到的逻辑推理它却并不擅长, 如何将计算机的计算优势展现在推理能力当中是目前挑战之一.

1.2 面向知识图谱的知识推理

针对知识图谱特有的三元组存储形式, 面向知识图谱的知识推理被定义为对三元组缺失部分的预测, 更主要的是对实体和关系进行的预测, 一般在<实体-关系-实体>三元组中进行. 实体预测指通过已知的实体和关系预测另一个实体的过程, 关系预测则是给定头尾两实体, 预测两者之间的关系. 文献[1,2]将面向知识图谱的知识推理归纳为以下几类: (1)基于图结构和统计规则挖掘的推理; (2)基于知识图谱表示学习的推理; (3)基于神经网络的推理; (4)混合推理. 除此之外, 还有学者认为存在基于传统方式的推理, 例如基于描述逻辑和概率逻辑的推理等. 每种类别下均存在多种推理方法. 以下对每类推理方法进行说明, 同时对知识推理应用前景、未来研究方向进行展望.

2 面向知识图谱的知识推理方法综述 2.1 基于描述逻辑和概率逻辑的推理

在知识推理技术发展伊始, 众多学者研究方向是将传统的推理方式移植到知识图谱当中, 基于描述逻辑和概率逻辑的推理方法应运而生. 传统推理方式虽然有着较高的准确率, 但移植到图谱中仍存在困难. 针对这些问题, 专家学者开始对描述逻辑与概率逻辑进行改进, 使其作为本体论的一种延伸, 运用到知识推理当中.

2.1.1 基于描述逻辑的推理

描述逻辑是一阶谓词逻辑的可判定子集, 是知识图谱本体论的基础. 与传统的知识表示学习相比, 其最大的优势在于可以完成知识的自动推理. 在描述逻辑之下又可划分为基于表结构的方法、基于产生式规则的方法以及基于本体数据访问的方法.

基于表结构方法中比较具有代表性的是Haarslev等[3]提出的RACER, Tsarkov等[4]提出的FaCT++以及Sirin等[5,6]提出的Pellet工具等. 这些方法主要通过构建具体的断言信息, 检验某实例是否存在于某概念当中, 从而实现自动化知识推理.

基于产生式规则的方法以Jena工具[7]与Sesame框架[8]为代表. Jena是一种基于Java开发的语义推理工具, 目前版本已更新到Jena3.17, 可对多种本体进行建模[9,10]. 其结构主要由视图层、视图加强层和模型层组成, 视图层用来存储三元组, 视图加强层用于生成多种视图, 模型层用于输入数据, 同时提供给用户多个API接口. Sesame是一种处理RDF数据的开源框架, 拥有关联绝大部分RDF库的能力, 因此可以用来远程访问其他RDF存储. 基于此框架, 张永娟等[11]提出一种基于Sesame及Rdfizer扩展工具的关联数据应用平台, 该平台可将非结构化数据进行XML结构化并转化为RDF数据, 从而实现存储、推理等功能.

基于本体数据访问的方法以Datalog语言为载体, 通过Datalog语言将SPARQL语言重写为SQL, 以完成推理等工作, 例如利用Neo4j进行查询重写完成本体推理等. 张金登等[12]提出一种通用的数据访问方法, 可有效解决异构数据的使用问题.

总体而言, 基于描述逻辑的推理仍然属于本体推理方法中的一种, 无法定义推理过程, 仍存在解释性上的不足, 同时仅支持本体公理上的推理, 泛化能力较弱.

2.1.2 基于概率逻辑的推理

基于概率逻辑的推理主要解决不确定性推理问题, 这里面比较有代表性的是基于统计关系学习(Statistical Relational Learning, SRL)[13]的推理方法. 统计关系学习是一种机器学习方法, 通过拓展传统的图模型来对实体之间的相关性进行建模, 几种比较典型的模型包括关系型贝叶斯网络模型[14]、关系型马尔可夫网络模型[15]和关系型依赖网络模型等. 而基于SRL的知识推理方法则是将关系信息代入机器学习模型当中进行特征表示, 再利用传统的学习算法进行分类, 存在复杂度高、实用性不强等问题, 因此常与其他种类方法联合使用以提升模型性能.

2.2 基于图结构和统计规则挖掘的推理

虽然针对传统推理方法的改进在知识图谱中获得了一定的效果, 但仍无法彻底解决其特有的图结构下特征挖掘问题. 据此学者们开始研究基于图结构和统计规则挖掘的知识推理方法, 其中比较有启蒙意义的是Lao等[16]提出的路径排序算法(Path Ranking Algo-rithm, PRA). 在知识推理当中, PRA是一种基于图结构的全局算法, 通过随机游走或遍历的方式获取实体之间的关系路径作为特征, 计算样例的特征值并加入分类器进行训练, 从而预测实体间潜在关系. 此后, 一些基于PRA的改进算法逐渐提出. Gardner等[17]提出一种高效且表达能力更强的子图特征提取模型(Subgraph Feature Extraction, SFE), 可有效降低PRA算法复杂度; Wang等[18]提出一种耦合路径排序算法(Coupled Path Ranking Algorithm, CPRA), 利用逐层聚合的思想, 通过多任务学习获得聚合后的潜在关联; 刘峤等[19]提出基于双层随机游走的关系推理算法, 改进PRA的关系单向性假设, 提出逆向关系语义从而进行推理; Mazumder等[20]针对PRA可扩展性差等缺陷, 借鉴随机路径探索策略提出上下文感知路径排序方法(Context-aware Path Ranking, C-PR), 该方法通过词嵌入学习全局语义, 并利用双向随机游走列举实体间相关路径; Xiong等[21]提出DeepPath算法, 使用强化学习框架设计一种图谱连续状态嵌入策略, 旨在解决多跳路径问题; Yang等[22]提出神经逻辑规划框架, 利用可微矩阵序列对推理任务进行表达从而完成对规则的学习, 改变了传统对实体和关系进行建模的思路; 张美玉等[23]等以产品知识图谱为基础, 在STEP平台上利用路径排序算法完成知识推理, 最终构建可视化知识推理平台.

从图结构获得特征后, 学者们思考利用传统关联规则挖掘方法来进行知识推理, 以不完备知识库的关联规则挖掘算法(Association rule Mining under Incomplete Evidence, AMIE)[24]为代表, 其支持从不完备知识库中挖掘闭式规则. 该算法依次通过添加悬挂边、实例边、闭合边的方式针对每种关系进行规则挖掘, 并以支持度和置信度作为评估标准; 任诗雅[25]提出一种基于非结构文本的增强关联规则知识推理方法, 该方法从自然文本中获得三元组知识以完善知识图谱并通过实验证明有效性; 随着基于开放信息抽取的知识推理愈发重要, 陈泽东等[26] 针对基于开放信息抽取的知识推理问题提出一种基于概率软逻辑模型的推理方法, 通过建立规则自动学习机制完成知识的推理与验证.

随着知识图谱规模的不断扩大, 基于图结构和统计规则的推理方法面临复杂度提升、计算量增大等问题. 目前的研究往往不单独考虑基于此的推理方法, 常对基于该方法的混合推理进行研究.

2.3 基于知识图谱表示学习的推理

基于知识图谱表示学习的方法往往先对知识图谱中的实体和关系进行特征表示, 再利用表示后的结果进行知识推理. 其随着知识图谱表示学习技术的不断进步而逐渐获得完善, 目前成为常用方式之一. 知识表示中比较有代表性的是TransE方法[27], 其旨在解决大规模知识图谱关系数据处理问题. 该方法将每个三元组的关系看作头实体到尾实体的翻译过程, 通过学习调整三者之间的向量关系, 使头实体与关系之间的向量和尽可能接近尾实体的向量, 从而完成对所有实体和关系的表示. 虽然TransE原理简单易扩展, 但仍然存在复杂关系建模效果差、无法利用知识库外部信息等缺陷. 后续很多方法都是在TransE上的改进, TransH[28]针对TransE无法解决的复杂关系建模问题提出解决思路, 将关系由超平面的法向量和超平面的翻译向量进行表示; Lin等[29]提出的TransR模型构建实体空间和多个关系空间, 分别在不同空间内进行建模并转换, 从而使实体不同关系的关注点有所侧重; CTransR[29]是TransR模型的变体, 是一种基于聚类的TransR, 主要思想是通过对不同的实体进行聚类分组, 并对每组的关系向量进行学习; TransD模型[30]主要针对知识图谱中的链接预测问题, 将实体的法向量看作头、尾实体在关系向量上的投影表示. 由于模型只涉及向量相乘, 有效减少了计算复杂度; TransA模型[31]主要解决传统知识表示模型对损失函数过于简化的问题, 提出一种新的基于图像的损失函数, 关注向量表示的不同维度, 在复杂关系问题中取得不错的效果; TransG模型[32]主要针对同一关系语义在客观世界含义不同的问题, 通过贝叶斯非参数无限混合模型对某个关系进行多种翻译, 并利用三元组确定最佳关系; He等[33]提出的KG2E模型通过高斯分布的协方差表示实体和关系的不确定度, 在多种任务下获得不错的效果; Xiao等[34]提出的ManifoldE模型旨在解决不适定代数以及过于严格的几何形式问题, 提出使用流形函数进行训练, 从而较好地完成链接预测等任务; Feng等[35]提出的TransF模型与ManifoldE模型类似, 改变TransE的训练函数, 通过不同维度的向量表达关系特征; Ji等[36]提出TranSparse模型将关系进行难度分级, 对不同难度的关系用不同数量的参数表示, 关系的难易程度用包含该关系的三元组数目衡量.

近年来, 一些基于新技术的表示学习方法被提出. 康世泽等[37]提出一种基于图注意力网络的表示学习框架可以运用到知识图谱当中, 该框架在初始向量表示后利用多个注意力层叠加获得范围内的邻居信息, 以适应不同的应用场景, 最终在几个子任务中获得了不错的效果; 刘藤等[38]以IterE 框架为出发点, 提出一种基于联合FOL规则的图谱表示学习方法, 主要思想是改进三元组得分函数从而使其适用大多数表示学习算法, 以提升模型可解释性; 熊辉[39]提出一种联合嵌入的表示方法, 可以完成动态知识背景下的实时推理; 孟小艳等[40]提出一种自适应的图谱表示方法TransAD, 仍然受到TransE和TransD的启发, 通过在得分函数中加入权重矩阵的方式提升模型处理复杂关系的能力, 取得一定的效果; 周航等[41]针对知识图谱的多语义性, 提出TransC方法, 该方法以每种关系可能存在的多种语义为出发点并构建高斯混合模型, 同时通过关系权重改进得分函数从而完成图谱的表示.

总体而言, 随着表示学习技术的逐步发展, 基于表示学习的知识推理逐渐成为主流方式之一. 然而其也存在先天劣势, 由于基于表示学习的推理往往是一个“黑盒”模型, 我们可以获得推理后的结果但并不清楚具体的推理过程, 导致可解释性较弱.

2.4 基于神经网络的推理

基于神经网络的推理方法一般指利用神经网络某些特性所进行的推理[42]. 例如预测三元组中的缺失元素, 或是预测多跳路径下首尾两实体之间的关系等. 就广义而言, 部分基于图谱表示学习的方法也属于神经网络方法的一种, 在此为区分清楚, 不再继续对表示学习推理方法进行表述.

Socher等[43]提出一种全新的神经张量网络(Neural Tensor Network, NTN), 该网络将实体表示为实体内部词向量的平均, 经实验验证优于单一词向量的表示方法; Shi等[44]提出一种简化的投影模型ProjE, 该模型将推理当中的实体预测定义为排序问题, 从实体集中选择最合适的实体补充三元组. 该方法简单易理解、参数较少, 但没有用到图谱中的语义信息, 可解释性较差; Lukovnikov等[45]提出一种神经匹配模型HNM, 该模型通过对主、谓词进行排序完成对简单问题进行解答的任务; Kampffmeyer等[46]考虑利用时下流行的图神经网络解决推理问题, 为了将知识传播到远端节点, 该文设计一个稠密图传播模块, 允许通过额外连接来利用知识层次结构, 经验证该模型可有效改善图中的信息传播; Schlichtkrull等[47]提出一种R-GCNs模型, 该模型将知识图谱看作有向的多标签图, 并通过图卷积模型对知识图谱中的关系进行建模, 较好地完成了链接预测和实体分类等任务, 为知识图谱补全打下基础; Wang等[48]以推荐系统为切入点, 提出一种路径知识递归网络KPRN, 该网络通过对实体与关系进行学习从而生成特征向量, 再通过显示推理方法推断用户的喜好; Zhang等[49]提出一种基于强化学习的知识推理框架, 该框架将三元组的推理问题转化为序列化决策过程, 由决策网络和价值网络构成, 以分别学习决策过程和价值功能, 最终获得不错的效果; Chen等[50]提出一种基于开放世界的知识推理框架, 该框架考虑了实体类型中的层次信息, 通过词袋模型和卷积神经网络对实体进行编码表示, 并通过递归层次编码器和加权层次编码器来构造层次类型的投影矩阵, 最终实现实体特征的精确表达, 从而更好地完成知识推理; 孙建强等[51]提出一种基于可微神经计算机和贝叶斯网络的知识推理方法, 将长短期记忆网络作为控制器加权获得新的实体向量, 利用概率模型对实体之间的关系进行推理.

文献[42]还指出可以利用神经网络存储能力完成知识推理任务, 例如Shen等[52]提出的IRN模型、Graves等[53]提出的DNC模型等, 这些模型主要是模拟人类思考的过程, 将知识的存储和读取形象化展示从而完成快速推理过程.

基于神经网络的推理凭借其良好的特性在近些年取得了长足的进步, 但仍存在解释性不足等问题, 同时其往往聚焦于知识图谱单个层面的信息, 不能全局考虑语义、路径等多种影响因素, 泛化能力有待提升.

2.5 混合推理

上述知识推理方法各自存在优势与天然缺陷, 为了弥补单一类别推理方法的不足, 众多学者开始考虑利用多种方法建模, 混合推理方法逐渐被提出.

传统基于路径的方法往往需要大量数据获取路径特征, 随着知识图谱规模的不断扩大, 传统方法复杂度高, 计算困难, 但仍有较好的可解释性; 基于神经网络/表示学习的推理方法具有良好的计算性能, 但可解释性不足, 多数混合推理逐渐将二者结合, 形成多种多样的推理方法. Neelakantan等[54]提出一种基于RNN的关系推理模型, 该模型借鉴PRA方法思路先获取特征路径, 再利用RNN模型对其进行向量化表示, 最终完成关系推理任务; Das等[55]将逻辑推理与神经网络结合, 利用注意力机制对多条关系路径进行推理, 以获得所有路径加权后的信息, 经验证该算法可以有效降低PRA算法的参数规模, 同时允许共享参数的推理; Wang等[56]为了解决传统基于路径的推理方法存在的无法有效记忆走过的路径以及训练容易中断的缺陷, 提出一种基于路径的深度学习模型, 该模型利用LSTM网络和注意力机制的记忆功能实现过往路径的记忆, 同时利用增强学习机制有效解决训练中断问题; 韩雨婷[57]提出一种语义路径组合推理算法, 该算法先将知识图谱嵌入到低维空间当中以提高计算效率, 再利用基于强化学习的路径发现模型获得实体之间的有效连接, 组后通过RNN获得组合路径向量以确定隐含关系; 陈海旭等[58]同样提出一种基于嵌入和路径组合的PSTransE模型, 该模型利用路径和关系的向量相似程度确定各类关系的出现概率, 经验证较传统推理算法有较大提升.

与此同时, 还有混合统计规则与神经网络/表示学习的知识推理方法, 同样可以解决神经网络可解释性较差的问题. Wang等[59]将规则加入到表示学习模型中, 将推理问题转化为整数线性规划问题从而产生一系列的事实; Demeester等[60]在表示学习中加入正则后的一阶约束方法, 可以有效挖掘偏序关系; Yang等[61]借鉴TensorLog[62]的灵感, 提出一种端到端的可微模型, 该模型结合了一阶逻辑规则学习过程以及神经逻辑规划过程, 将推理过程转化为可微操作序列.

混合推理将不同类型的推理方法相结合, 有效弥补了单一类型方法存在的缺陷, 但建模过程往往比较复杂. 随着科技领域的发展, 算力瓶颈逐渐被打破, 混合推理方法也逐渐成为目前主流方法之一, 是众多学者的研究方向.

3 知识推理应用前景

通过知识推理技术可以对知识图谱进行补全, 同时也可以检测已存在的错误三元组, 对知识图谱质量的提升有重要意义. 一方面, 目前的知识图谱构建过程仍存在不规范等问题, 导致一部分知识无法被归纳到知识图谱中; 同时还有研究表示, 目前的知识图谱本身仍存在属性缺失等问题[63], 使得整个知识图谱较为稀疏, 难以满足部分子任务要求. 另一方面, 在构建图谱过程中由于外部信息获取参差不齐, 导致可能存在错误的知识被添加至图谱当中, 这些噪声信息同样会对部分子任务造成影响.

目前经知识推理后获得的更高质量的知识图谱可用于实体链接、智能问答、类型检测、推荐系统等多个知识图谱下游任务中, 结合具体场景的推理任务包括但不限于冲突故障诊断、领域图谱构建、军事辅助决策、智能医学诊疗等. 例如刘瑞宏等[64]以电信领域知识图谱为对象, 用知识推理技术对网络故障进行诊断; 张春霞等[65]通过知识推理技术实现课程类知识图谱的构建; 张清辉等[66]将知识推理技术运用到军事信息服务中, 以获得战场中的信息优势; 韦昌法等[67]通过基于表示学习的推理技术探讨中医辨证发展、翟姗姗等[68]提出基于知识图谱和病人画像的智能诊疗推荐系统等.

3.1 实体链接

实体链接(entity linking)指将文本中提及的指称与知识库中的实体对应起来, 大部分的方法针对的是开放域实体连接任务. 一般来说, 实体链接与知识图谱是相互促进、相互关联的[69], 通过实体链接我们可以查询知识库中对应的实体, 通过知识图谱可以更好地完成实体链接任务. 实体链接分为候选实体生成和命名实体消歧[70,71]两个步骤, 候选实体生成旨在利用指称生成可能与之链接的候选实体集, 主要有基于字典、基于人工标注、基于搜索引擎等方法, 目前框架体系已臻于完善, 学者们的研究重点往往放在命名实体消歧步骤中. 目前比较常用的实体消歧方法需要利用知识图谱中丰富的实体和关系信息, 例如Parravicini等[72]在知识图谱上利用图嵌入技术来进行消歧, 该框架在不需要任何监督训练的情况下就能在数据集上提供最先进的准确性. 正因如此, 知识图谱的质量往往决定了实体链接的效率, 通过知识推理任务提升知识图谱质量可更高效地完成实体链接任务.

3.2 类型检测

实体类型检测(entity type inference)指对实体属性进行推断, 是知识图谱构建的基础任务之一. 传统依赖于人工的方法成本高, 难以符合信息化时代的需求, 目前比较简单的方法是利用一些规则在知识图谱中进行搜索, 针对符合该规则的实体进行类型的推断. 然而知识图谱的优劣、推理规则的好坏仍然成为制约模型的瓶颈之一. 郑路也[73]提出一种多任务属性分类体系, 借助已知的实体类型的层级信息, 构建了实体类型的嵌入式表达作为训练数据, 并利用元学习技术在新任务上进行训练测试, 取得了一定的效果; 张政等[74]以推测城市交通用地类型为例, 将公共交通出行数据与行测和数据用作知识信息, 利用卷积神经网络进行类型判断. 总体而言, 将推理后的知识图谱作为先验知识加入到类型检测任务中、或是将知识推理技术进行改进使其具备类型/属性推理能力逐渐成为目前研究方向之一.

3.3 智能问答

智能问答(intelligent question-answering)是自然语言处理领域基础任务之一, 随着知识图谱的不断完善, 智能问答可依赖的知识源也更加符合客观实际. 知识图谱构建的初衷即是让知识可以更好地被用户搜索与查询, 而过去的搜索引擎是静态的, 通过对网页中存储好的信息进行搜索从而完成知识的展示, 扩展能力不佳; 利用基于知识图谱的知识推理技术可以动态完成知识的查询, 使整个系统更加灵活[75]. Zhang等[76]为了解决智能问答中关键实体识别等问题, 提出一种变分学习算法, 该算法通过变分推断实现多跳推理并找到答案, 且在推理过程中不需要对整个知识图谱进行表示学习, 只需要在每次查询时对子图进行表示学习即可; Lin等[77]为了缩小问答系统中机器与人之间的差距, 使机器也具备常识推理能力, 设计一个知识感知型图神经网络框架KagNet, 该框架以问答数据集Commonsense QA为基础, 通过基础图的构建和基于图模型的推理两部分构成, 框架中加入图卷积神经网络以及注意力机制, 可有效提升推理过程的可解释性.

有关智能问答的应用在工业界还有很多, 随着智能问答技术的发展, 知识推理逐渐成为其内在驱动力之一, 两者之间的融合创新将成为未来的研究热点.

3.4 推荐系统

推荐系统(recommendation system)被定义为一种自动化信息检索工具, 它将用户和商品信息融合, 从而为每名用户推荐其感兴趣的内容. 近年来有学者提出可以将面向知识图谱的推理技术应用到推荐系统当中[78], 例如对用户感兴趣的商品的预测可以看作对知识图谱中关系的补全. Catherine等[79]利用基于图的知识推理方法挖掘用户与商品之间的隐含关系路径, 通过关联规则挖掘预测用户感兴趣的信息; Cao等[80]将知识图谱补全技术与推进系统相结合, 推测用户感兴趣的结果; 许智宏等[81]提出一种视频推荐模型PtransE_CF模型, 该模型主要解决图谱数据稀疏的问题, 核心思想是通过表示学习计算视频之间的相似程度, 再将其与用户行为相似度进行对比, 最终完成推荐任务.

目前的推荐系统同样面临关系稀疏等缺陷, 利用知识推理技术可以有效解决这类问题, 为更高效准确的推荐打下基础.

4 知识推理总结与展望 4.1 面向知识图谱的知识推理总结

知识图谱作为结构化知识表示的工具之一, 顺应智能化时代的需求, 也是目前的研究热点之一. 众多基于知识图谱的下游任务需要更完备的知识信息, 因此知识图谱的完善成为目前亟待解决的问题, 也促进着知识推理技术的不断发展进步. 近些年, 国内外众多专家学者对知识推理技术进行了多个层面的研究, 也提出了多种技术框架, 取得了良好的效果. 但总体而言, 知识图谱仍然存在关系稀疏、噪声数据繁杂等问题, 难以覆盖客观世界的大部分知识, 仍需要继续对这一技术进行钻研.

4.2 知识推理展望

未来面向知识图谱的知识推理方法仍将以各类知识图谱下游任务作为依托, 可应用到众多场景中. 与此同时, 知识推理需要向自动化、智能化发展, 需要关注大规模时序知识图谱中知识推理的可扩展性, 大数据流处理中的推理效率、自动或半自动的规则推理实现. 最后从以下几个重点技术展望未来知识推理的发展前景.

一是多模态知识推理技术. 随着文本、视频、音频数据的大量出现, 众多知识以不同的形式被表达, 如何将这些知识进行表示对齐成为目前亟待解决的问题之一, 因此基于多模态的知识推理技术应运而生. 从不同类型的数据中推理获得关联更符合客观世界模型, 也更容易被各类工业任务所应用.

二是动态知识推理技术. 人类每天都在与知识图谱进行交互, 每时每刻也会产生大量的知识信息. 因此传统基于静态图谱的推理技术不能很好地表达时序信息, 在众多工业应用场景中无法进行动态建模, 也无法对工序信息进行处理. 动态知识推理技术逐渐被学者研究, 例如邵心玥[82]将时间信息加入到表示学习中, 在部分测试集中取得一定的效果. 随着算力水平的提升, 将时序信息加入知识推理技术将逐渐成为未来研究方向之一.

三是基于小样本的知识推理技术. 人类具备通过已有知识积累和少量案例进行知识推理的能力, 但机器解决这类问题还存在困难, 目前众多的知识推理方法难以在小样本下获得高阶规则以及知识信息, 导致推理效果差. 近年来提出的小样本学习方法(few-shot learning)为我们提供了解决问题的思路, 如何将小样本学习与知识推理结合起来值得被进一步研究.

四是碎片化知识推理技术. 随着科技的进步与智能化水平的提高, 碎片化知识信息大量出现, 现有的知识推理技术难以处理这些非结构复杂碎片信息, 导致信息利用率低, 各类算法总结归纳能力不强. 贾丽丽[83]提出基于粒计算的关联规则挖掘算法以挖掘碎片化知识信息, 取得了一定效果, 但效率仍有待进一步提升.

参考文献
[1]
马忠贵, 倪润宇, 余开航. 知识图谱的最新进展、关键技术和挑战. 工程科学学报, 2020, 42(10): 1254-1266.
[2]
官赛萍, 靳小龙, 贾岩涛, 等. 面向知识图谱的知识推理研究进展. 软件学报, 2018, 29(10): 2966-2994. DOI:10.13328/j.cnki.jos.005551
[3]
Haarslev V, Möeller R. RACER system description. Proceedings of the 1st International Joint Conference on Automated Reasoning. Siena: ACM, 2001. 701–706.
[4]
Tsarkov D, Horrocks I. FaCT++ description logic reasoner: System description. Proceedings of the 3rd International Joint Conference on Automated Reasoning. Berlin Heidelberg: Springer, 2006. 292–297.
[5]
Sirin E, Parsia B. Pellet: An OWL DL reasoner. Proceedings of 2004 International Workshop on Description Logics. Whistler: CEUR-WS. org, 2004. 212–213.
[6]
Sirin E, Parsia B, Grau BC, et al. Pellet: A practical OWL-DL reasoner. Journal of Web Semantics, 2007, 5(2): 51-53. DOI:10.1016/j.websem.2007.03.004
[7]
Carroll JJ, Dickinson I, Dollin C, et al. Jena: Implementing the semantic web recommendations. Proceedings of the 13th International Conference on World Wide Web—Alternate Track Papers & Posters. New York: ACM, 2004. 74–83.
[8]
Pedrinaci C, Bernaras A, Smithers T, et al. A framework for ontology reuse and persistence integrating UML and sesame. Proceedings of the 10th Conference of the Spanish Association for Artificial Intelligence, CAEPIA 2003, and 5th Conference on Technology Transfer. San Sebastian: Springer, 2003. 37–46.
[9]
陈成. 基于Jena的计算机学科知识领域的本体推理系统的研究与应用. 信息与电脑, 2018(14): 55-56.
[10]
马苗苗, 陈春辉. 基于Jena开发包的交通本体推理机制研究. 河南科技, 2020(13): 102-104. DOI:10.3969/j.issn.1003-5168.2020.13.038
[11]
张永娟, 陈涛, 张珅. 基于Sesame及Rdfizer扩展工具的关联数据应用平台. 图书情报工作, 2013, 57(16): 135-139. DOI:10.7536/j.issn.0252-3116.2013.16.025
[12]
张金登, 施晓东, 李晓杰. 基于本体的通用数据访问方法. 电子技术与软件工程, 2013(22): 216.
[13]
Getoor L, Taskar B. Introduction to Statistical Relational Learning. Cambridge: MIT Press, 2007.
[14]
伍杰华, 沈静, 周蓓. 改进朴素贝叶斯模型的复杂网络关系预测. 计算机工程与科学, 2017, 39(10): 1825-1831. DOI:10.3969/j.issn.1007-130X.2017.10.008
[15]
闫海蓉. 关系马尔可夫网及其在社会网络中的应用研究[硕士学位论文]. 北京: 北京交通大学, 2010.
[16]
Lao N, Cohen WW. Relational retrieval using a combination of path-constrained random walks. Machine Learning, 2010, 81(1): 53-67. DOI:10.1007/s10994-010-5205-8
[17]
Gardner M, Mitchell T. Efficient and expressive knowledge base completion using subgraph feature extraction. Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics, 2015. 1488–1498.
[18]
Wang Q, Liu J, Luo YF, et al. Knowledge base completion via coupled path ranking. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics, 2016. 1308–1318.
[19]
刘峤, 韩明皓, 江浏祎, 等. 基于双层随机游走的关系推理算法. 计算机学报, 2017, 40(6): 1275-1290. DOI:10.11897/SP.J.1016.2017.01275
[20]
Mazumder S, Liu B. Context-aware path ranking for knowledge base completion. Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: AAAI, 2017. 1195–1201.
[21]
Xiong WH, Hoang T, Wang WY. DeepPath: A reinforcement learning method for knowledge graph reasoning. Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen: Association for Computational Linguistics, 2017. 564–573.
[22]
Yang F, Yang ZL, Cohen WW. Differentiable learning of logical rules for knowledge base reasoning. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: ACM, 2017. 2316–2325.
[23]
张美玉, 林崇, 简琤峰. 基于路径排序算法的STEP知识推理技术研究. 浙江工业大学学报, 2020, 48(2): 126-132, 187. DOI:10.3969/j.issn.1006-4303.2020.02.002
[24]
Galárraga LA, Teflioudi C, Hose K, et al. AMIE: Association rule mining under incomplete evidence in ontological knowledge bases. Proceedings of the 22nd International Conference on World Wide Web. Rio de Janeiro: ACM, 2013. 413–422.
[25]
任诗雅. 基于知识图谱的非结构化关联规则抽取研究及应用[硕士学位论文]. 重庆: 重庆邮电大学, 2019.
[26]
陈泽东, 赵旭剑, 张晖, 等. 面向开放式信息抽取系统的知识推理验证. 西南科技大学学报, 2019, 34(4): 72-80. DOI:10.3969/j.issn.1671-8755.2019.04.012
[27]
Bordes A, Usunier N, Garcia-Durán A, et al. Translating embeddings for modeling multi-relational data. Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: ACM, 2013. 2787–2795.
[28]
Wang Z, Zhang JW, Feng JL, et al. Knowledge graph embedding by translating on hyperplanes. Proceedings of the 28th AAAI Conference on Artificial Intelligence. Quebec City: AAAI, 2014. 1112–1119.
[29]
Lin YK, Liu ZY, Sun MS, et al. Learning entity and relation embeddings for knowledge graph completion. Proceedings of the 29th AAAI Conference on Artificial Intelligence. Austin: ACM, 2015. 2181–2187.
[30]
Ji GL, He SZ, Xu LH, et al. Knowledge graph embedding via dynamic mapping matrix. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing: Association for Computational Linguistics, 2015. 687–696.
[31]
Xiao H, Huang ML, Hao Y, et al. TransA: An adaptive approach for knowledge graph embedding. arXiv: 1509.05490, 2015.
[32]
Xiao H, Huang ML, Hao Y, et al. TransG: A generative mixture model for knowledge graph embedding. arXiv: 1509.05488, 2015.
[33]
He SZ, Liu K, Ji GL, et al. Learning to represent knowledge graphs with gaussian embedding. Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne: ACM, 2015. 623–632.
[34]
Xiao H, Huang ML, Hao Y, et al. From one point to a manifold: Orbit models for knowledge graph embedding. arXiv: 1512.04792, 2015.
[35]
Feng J, Zhou MT, Hao Y, et al. Knowlege graph embedding by flexible translation. arXiv: 1505.05253, 2015.
[36]
Ji GL, Liu K, He SZ, et al. Knowledge graph completion with adaptive sparse transfer matrix. Proceedings of the 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI, 2016. 985–991.
[37]
康世泽, 吉立新, 张建朋. 一种基于图注意力网络的异质信息网络表示学习框架. 电子与信息学报, 2021, 43(4): 915-922. DOI:10.11999/JEIT200034
[38]
刘藤, 陈恒, 李冠宇. 联合FOL规则的知识图谱表示学习方法. 计算机工程与应用, 2021, 57(4): 100-107. DOI:10.3778/j.issn.1002-8331.1911-0436
[39]
熊辉. 基于知识表示学习的实时语义数据流推理[硕士学位论文]. 武汉: 武汉科技大学, 2020.
[40]
孟小艳, 蒋同海, 周喜, 等. 一种改进的自适应知识图谱嵌入式表示方法. 计算机应用研究, 2021, 38(1): 39-43.
[41]
周航, 刘学军, 张伯君. 面向多语义关系的知识图谱表示学习方法. 计算机工程与设计, 2021, 42(01): 220–225.
[42]
张仲伟, 曹雷, 陈希亮, 等. 基于神经网络的知识推理研究综述. 计算机工程与应用, 2019, 55(12): 8-19, 36. DOI:10.3778/j.issn.1002-8331.1901-0358
[43]
Socher R, Chen DQ, Manning CD, et al. Reasoning with neural tensor networks for knowledge base completion. Proceedings of the 26th International Conference on Neural Information Processing Systems. Lake Tahoe: ACM, 2013. 926–934.
[44]
Shi BX, Weninger T. ProjE: Embedding projection for knowledge graph completion. Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017. 1236–1242.
[45]
Lukovnikov D, Fischer A, Lehmann J, et al. Neural network-based question answering over knowledge graphs on word and character level. Proceedings of the 26th International Conference on World Wide Web. Perth: ACM, 2017. 1211–1220.
[46]
Kampffmeyer M, Chen YB, Liang XD, et al. Rethinking knowledge graph propagation for zero-shot learning. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019. 11479–11488.
[47]
Schlichtkrull M, Kipf TN, Bloem P, et al. Modeling relational data with graph convolutional networks. Proceedings of the 15th International Conference on the Semantic Web. Cham: Springer, 2018. 593–607.
[48]
Wang X, Wang DX, Xu CR, et al. Explainable reasoning over knowledge graphs for recommendation. Proceedings of the 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, The 31st Innovative Applications of Artificial Intelligence Conference, IAAI 2019, The 9th AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019. Honolulu: AAAI, 2019. 5329–5336.
[49]
Zhang LL, Li DW, Xi YG, et al. Reinforcement learning with actor-critic for knowledge graph reasoning. Science China Information Sciences, 2020, 63(6): 169101. DOI:10.1007/s11432-018-9820-3
[50]
Chen XJ, Jia SB, Ding L, et al. SDT: An integrated model for open-world knowledge graph reasoning. Expert Systems with Applications, 2020, 162: 113889. DOI:10.1016/j.eswa.2020.113889
[51]
孙建强, 许少华. 基于可微神经计算机和贝叶斯网络的知识推理方法. 计算机应用, 2021, 41(2): 337-342.
[52]
Shen YL, Huang PS, Chang MW, et al. Modeling large-scale structured relationships with shared memory for knowledge base completion. Proceedings of the 2nd Workshop on Representation Learning for NLP. Vancouver: Association for Computational Linguistics, 2017. 57–68.
[53]
Graves A, Wayne G, Reynolds M, et al. Hybrid computing using a neural network with dynamic external memory. Nature, 2016, 538(7626): 471-476. DOI:10.1038/nature20101
[54]
Neelakantan A, Roth B, McCallum A. Compositional vector space models for knowledge base completion. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing: Association for Computational Linguistics, 2015. 156–166.
[55]
Das R, Neelakantan A, Belanger D, et al. Chains of reasoning over entities, relations, and text using recurrent neural networks. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia: Association for Computational Linguistics, 2017. 132–141.
[56]
Wang H, Li SY, Pan R, et al. Incorporating graph attention mechanism into knowledge graph reasoning based on deep reinforcement learning. Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong: Association for Computational Linguistics, 2019. 2623–2631.
[57]
韩雨婷. 知识图谱中语义路径组合关系的推理算法研究[硕士学位论文]. 大连: 大连海事大学, 2020.
[58]
陈海旭, 周强, 刘学军. 一种结合路径信息和嵌入模型的知识推理方法. 小型微型计算机系统, 2020, 41(6): 1147-1151. DOI:10.3969/j.issn.1000-1220.2020.06.005
[59]
Wang Q, Wang B, Guo L. Knowledge base completion using embeddings and rules. Proceedings of the 24th International Joint Conference on Artificial Intelligence. Buenos Aires: AAAI, 2015. 1859–1866.
[60]
Demeester T, Rocktäschel T, Riedel S. Regularizing relation representations by first-order implications. Proceedings of the 5th Workshop on Automated Knowledge Base Construction. San Diego: Association for Computational Linguistics, 2016. 75–80.
[61]
Yang F, Yang ZL, Cohen WW. Differentiable learning of logical rules for knowledge base completion. arXiv: 1702.08367, 2017.
[62]
Cohen WW. TensorLog: A differentiable deductive database. arXiv: 1605.06523, 2016.
[63]
Min BN, Grishman R, Wan L, et al. Distant supervision for relation extraction with an incomplete knowledge base. Proceedings of 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Atlanta: Association for Computational Linguistics, 2013. 777–782.
[64]
刘瑞宏, 谢国强, 苑宗港, 等. 基于知识图谱的智能故障诊断研究. 邮电设计技术, 2020(10): 30-35.
[65]
张春霞, 彭成, 罗妹秋, 等. 数学课程知识图谱构建及其推理. 计算机科学, 2020, 47(S2): 573-578.
[66]
张清辉, 杨楠, 梁政. 任务驱动的军事信息服务知识推理研究. 火力与指挥控制, 2021, 46(5): 64-70. DOI:10.3969/j.issn.1002-0640.2021.05.012
[67]
韦昌法, 晏峻峰. 从知识表示与推理方法探讨中医数字辨证发展. 中华中医药杂志, 2019, 34(10): 4471-4473.
[68]
翟姗姗, 胡畔, 潘英增, 等. 融合知识图谱与用户病情画像的在线医疗社区场景化信息推荐研究. 情报科学, 2021, 39(5): 97-105.
[69]
陆伟, 武川. 实体链接研究综述. 情报学报, 2015, 34: 105-12. DOI:10.3772/j.issn.1000-0135.2015.001.011
[70]
温萍梅, 叶志炜, 丁文健, 等. 命名实体消歧研究进展综述. 数据分析与知识发现, 2020, 4(9): 15-25.
[71]
段宗涛, 李菲, 陈柘. 实体消歧综述. 控制与决策, 2021, 36(5): 1025-1039.
[72]
Parravicini A, Patra R, Bartolini DB, et al. Fast and accurate entity linking via graph embedding. Proceedings of the 2nd Joint International Workshop on Graph Data Management Experiences & Systems (GRADES) and Network Data Analytics (NDA). Amsterdam: ACM, 2019. 1–9.
[73]
郑路也. 基于多任务的元学习方法在细粒度实体分类中的研究[硕士学位论文]. 杭州: 浙江大学, 2019.
[74]
张政, 陈艳艳, 梁天闻. 基于出行特征的用地类型推断方法研究. 交通运输系统工程与信息, 2020, 20(5): 29-35.
[75]
李启可, 张克亮. 基于问答系统的知识推理技术. 电脑知识与技术, 2019, 15(9): 155-156.
[76]
Zhang YY, Dai HJ, Kozareva Z, et al. Variational reasoning for question answering with knowledge graph. Proceedings of the 32nd AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th Innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18). New Orleans: AAAI, 2018. 6069–6076.
[77]
Lin BY, Chen XY, Chen JM, et al. KagNet: Knowledge-aware graph networks for commonsense reasoning. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: Association for Computational Linguistics, 2019. 2829–2839.
[78]
饶子昀, 张毅, 刘俊涛, 等. 应用知识图谱的推荐方法与系统. 自动化学报, 2020, 46(x): 1−16.
[79]
Catherine R, Cohen WW. Personalized recommendations using knowledge graphs: A probabilistic logic programming approach. Proceedings of the 10th ACM Conference on Recommender Systems. Boston: ACM, 2016. 325–332.
[80]
Cao YX, Wang X, He XN, et al. Unifying knowledge graph learning and recommendation: Towards a better understanding of user preferences. Proceedings of 2019 the World Wide Web Conference. San Francisco: ACM, 2019. 151–161.
[81]
许智宏, 赵杏, 董永峰, 等. 基于知识图谱知识推理的视频推荐算法. 计算机工程与设计, 2020, 41(3): 710-715.
[82]
邵心玥. 融合时间信息知识图谱自主建模与推理关键技术研究[硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2020.
[83]
贾丽丽. 碎片化知识挖掘与智能推理方法研究. 科技传播, 2020, 12(2): 128-130. DOI:10.3969/j.issn.1674-6708.2020.02.061