互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向.
How to extract useful information from surging data has become a critical issue confronting artificial intelligence in the Internet age. As an important method, knowledge graph has become the main driving force to promote the development of artificial intelligence technology. Information extraction realizes the extraction of structured entities and their relationships from massive data, which is the primary step in constructing a knowledge graph. This study discusses the development trend of information extraction in knowledge graphs, as well as entity extraction, relationship extraction, event extraction, and key technologies. Finally, it analyzes and discusses the current problems, challenges, and future development.
随着信息时代的到来, 数据呈爆发式的增长, 如何从这些数据中通过智能技术自动提取出真正有价值的信息, 尤为重要. 知识图谱[
知识图谱的构建过程: 首先从数据源中提取出碎片化事实[
信息抽取通常采用基于NLP和文本挖掘的方法. 在信息抽取研究的成果中我们发现当前的研究在提升信息抽取准确度的基础上主要围绕如何减少人工标注语料、人工提取特征以及人工构建模式展开. 这使得知识图谱中的信息抽取面对着3个挑战: 第一, 如何从需要构建知识图谱的领域语料中利用启发式的信息来发现语料中的隐含知识, 从而在较少的人工标注中获得较高的准确度. 第二, 如何解决已有知识图谱中部分不完整的实体、关系与事件信息所带来的噪声与语义漂移问题. 第三, 如何在开放领域中利用现有的标注或加上较少的标注实现知识图谱在新信息中的完善与更新.
本文综述了知识图谱中信息抽取技术, 详细地描述了近年来在实体、关系和事件抽取中的各项技术, 探讨这些技术在解决上述3大挑战的进展. 以便研究者能对信息抽取技术有一个全局认识, 进而能厘清技术的发展趋势与方向. 期望研究者能从中汲取技术的精华和理念, 进一步推动信息抽取技术的发展.
命名实体识别(named entity recognition, NER)是实体抽取的别称. 命名实体能在具有相似属性的一组事物中清楚的标识出一个事物. 它可以理解为有文本标识的实体, 而实体(entity)是不依附于其他东西而存在的. 在现实世界中, 实体通常分为3大类7小类. NER是从文本中抽取实体信息元素. NER主要有基于规则和字典的方法[
近年来, 基于深度学习的NER模型逐渐占主导地位, 与传统的机器学习相比, 深度学习有助于自动发现隐藏的特征[
深度学习在实体抽取领域取得较好效果后, 研究人员开始在词汇级别上对其神经网络结构进行改进研究. Lample等人[
上述模型偏重于词或字符的特征提取, 无法动态的表征上下文语境中的一词多义. 为了改善这问题, Devlin等人[
近几年, 在基于深度学习的方法上加入注意力机制[
关系抽取(relation extraction, RE)旨根据实体之间的上下文语境来确定语义关系, 它为许多下游任务提供了基础支持, 比如文本理解中, 为了理解复杂的语句, 识别语句中的实体对之间的关系是至关重要的.在问答系统中, 关系抽取所得到的实体间的关系实例可以作为背景知识支撑问题的问答. 在NLP领域中, 关系抽取最重要的应用是构建知识图谱.
传统的关系分类模型需要耗费大量的人力去设计特征, 而且很多隐性特征也难以定义. 因此传统方法在大规模关系抽取任务中效果不佳. 基于深度学习的关系抽取能够自动学习有效特征. 有监督的关系抽取方法是深度学习方法中的一个主要方法, 在解决人工特征选择和特征提取误差传播等问题上有不错的效果. 流水线学习和联合学习是有监督的关系抽取方法主要的两种类别. 基于深度学习的关系抽取的另一个主要方法是远程监督的方法, 其利用已知知识库信息以减少人工处理.
流水线学习方法中的关系抽取是在实体抽取完成的基础上进行的, 因此关系抽取结果的好坏与实体抽取的结果有直接关联. 主要采用的方法是CNNs和RNNs. 其中CNNs有利于识别目标的结构特征. RNNs有利于识别序列[
Wang等人[
随着不断的改进和完善CNNs和RNNs, 使它们产生了许多的变体, 如双向长短期记忆网络(Bi-LSTM). Xiao等人[
随着GCN在NLP领域的应用, GCN也被应用到关系抽取的研究中. Schlichtkrull等人[
流水线方法使得关系抽取能得到实体抽取的有用信息, 从而提升了关系抽取的效果. 但该方法也会产生错误传播, 使得没有关系的两个实体之间出现关系.
为了避免流水线学习中存在的问题, 联合抽取将实体和关系放在同一模型中共同抽取. 联合学习主要有两种类别: 参数共享和标注策略.
参数共享是指模型通过共享编码层产生的共享参数来彼此依赖, 最后通过训练得到全局参数[
基于神经网络的联合学习除了共享参数和标注策略之外, Nayak等人[
在文本中, 如果实体之间存在某种关联, 那么就会以某种形式表现出这种关联. 在这种前提下, 基于远程监督的方法, 首先从文本中抽取出存在关系的实体对句子, 然后将句子作为训练数据放入模型中进行关系抽取.
采用知识图谱和文本对齐方式来自动提取训练数据, 减少了人工标注. 但是, 这些数据中会引入大量的噪声, 从而引起语义漂移现象. 为了减少语义漂移现象的出现, Ji等人提出了APCNNs模型[
基于开放领域的关系抽取方法, 在大规模非限定类型的语料库中结合语形和语义特征自动进行关系抽取, 减少了人工标注成本. TextRunner开放信息抽取原型系统是一个面向开放领域的信息抽取框架(OIE), 实体关系能够自动进行抽取, 但
基于开放域的关系抽取在二元关系抽取上的准确率和正确率有待于提高, 在挖掘隐藏信息方面的提升, 有助于关系的抽取. 面向开放域的关系抽取方法在性能上存在不足, 这给研究者留下了研究空间.
事件抽取(event extraction, EE)被定义为从文本中提取出对人类有用的信息事件, 并以结构化的形式表示出来. 例如从“李华1922年出生于湖南长沙”文本中抽取出事件{类型: 出生, 人物: 李华, 时间: 1922年, 出生地: 湖南长沙}. 事件抽取主要的任务包括从文本中发现触发词和从文本中识别出元素扮演的角色. 如
事件抽取结构分析
事件抽取任务
触发词 | 元素 |
辞去 | 角色 = 人 (巴里·迪勒) |
角色 = 组织 (维旺迪环球娱乐) | |
角色 = 职位 (首席) | |
角色 = 时间 (星期三) |
事件抽取中, 基于模式匹配的方法通过模式匹配算法进行事件抽取, 主要的模型有ExDisco, GenPAM等. 模式匹配方法在特定领域能取得很好的性能, 但移植性差, 在跨领域进行事件抽取时, 需要重新构建.
在机器学习方法中, 事件抽取问题转换成了分类问题. 常见的分类算法有SVM, ME等. 基于机器学习的事件抽取方法移植性能好, 但是需要依赖大规模的知识库, 否则可能会出现数据稀疏问题. 另外, 特征选取也是一个重要因素. 怎样解决这两个因素, 成为了机器学习方法在事件抽取研究中的重要方向.
基于深度学习的事件抽取模型主要有动态多池卷积神经网络(DMCNN)[
对信息抽取中的实体抽取, 关系抽取和事件抽取的不断研究, 部分学者开始进行多任务联合学习的研究, 多任务联合学习解决了各任务独立学习时忽略了依存关系问题. Lee等人[
事件抽取一般从属于实体、关系才有明显的意义, 所以目前一般采用联合学习的方式结合实体、关系抽取所获得的信息来进一步指导事件的抽取.
NER、RE与EE是知识图谱信息抽取的3个子任务.
我们将知识图谱中信息抽取的主要技术整理成
ACL会议中信息抽取子任务的论文数量
EMNLP会议中信息抽取子任务的论文数量
实体抽取研究发展趋势
实体抽取方法 | 策略 |
早期方法 | 基于规则和字典的方法 |
基于机器学习 | HMM, ME, CRF |
基于深度学习 | BiLSTM、CRF、CNNs结合, BERT、CRF结合, ERNIE, MT-DNN, XLNet, RoBETRa, SpanBERT, ALBERT |
关系抽取研究发展趋势
关系抽取方法 | 策略 |
基于监督学习 | 核函数方法, 特征向量方法 |
基于深度学习 | CNNs, RNNs, BiLSTM, GCN, 参数共享, 标注策略 |
基于远程监督 | 注意力机制, 强化学习 |
基于开放领域 | OIE系统, WOE系统, PATTY系统, OLLIE系统 |
事件抽取研究发展趋势
事件抽取方法 | 策略 |
基于模式匹配 | ExDisco, GenPAM, |
基于机器学习 | ME |
基于深度学习 | DMCNN, JRNN |
联合学习方法 | 共指解析系统, ECB+系统, SSVM系统 |
如
事件抽取主要方法如
知识图谱构建过程中信息抽取是必不可少的环节.本文详细介绍了近年来信息抽取中实体抽取、关系抽取和事件抽取的技术进展, 梳理了它们的发展趋势. 在应对减少人工干预信息抽取的3大挑战中, 目前的研究主要集中在针对领域语料采用深度学习进行. 它表现在利用句法结构、注意力机制等语言学知识和图像处理知识来寻找合适的神经网络结构以改进深度学习. 而在融合已有知识图谱中知识以及在开放领域中减少人工工作方面, 目前的研究成果较少. 因此, 在知识图谱的信息抽取研究中继续进行深度学习的研究是一个重要方向. 而引入机器学习中的降噪技术结合信息抽取的特点做已有相似实体、关系与事件的融合是一个可行的有前景的方向. 另一个非常有前景的方向就是对开发领域中已有标注的语料结合新信息、新语料利用半监督学习的成果进行信息抽取的研究. 希望能有更多的学者就这两个方向展开研究取得成果.
https://www.blog.google/products/search/introducing-knowledge-graph-things-not/. (2012-05-16).]]>
Ji SX, Pan SR, Cambria E,
黄恒琪, 于娟, 廖晓, 等. 知识图谱研究综述. 计算机系统应用, 2019, 28(6): 1–12, doi: 10.15888/j.cnki.csa.006915.
Wu XD, Chen HH, Wu GQ,
刘烨宸, 李华昱. 领域知识图谱研究综述. 计算机系统应用, 2020, 29(6): 1–12, doi: 10.15888/j.cnki.csa.007431.
郭喜跃, 何婷婷. 信息抽取研究综述. 计算机科学, 2015, 42(2): 14–17, 38.
Wu XD, Zhu XQ, Wu GQ,
Mu XF, Wang W, Xu AP. Incorporating token-level dictionary feature into neural model for named entity recognition. Neurocomputing, 2020, 375: 43–50.
et al. Distantly supervised named entity recognition using positive-unlabeled learning. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019. 2409–2419.]]>
Azalia FY, Bijaksana MA, Huda AF. Name indexing in Indonesian translation of hadith using named entity recognition with naïve Bayes classifier. Procedia Computer Science, 2019, 157: 142–149.
Ghiasvand O, Kate RJ. Learning for clinical named entity recognition without manual annotations. Informatics in Medicine Unlocked, 2018, 13: 122–127.
Sintayehu H, Lehal GS. Named entity recognition: A semi-supervised learning approach. International Journal of Information Technology, 2021, 13(4): 1659–1665.
Hao ZF, Lv D, Li ZJ,
Li J, Sun AX, Han JL,
et al. Neural architectures for named entity recognition. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego: Association for Computational Linguistics, 2016. 260–270.]]>
Luo L, Yang ZH, Yang P,
et al. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis: Association for Computational Linguistics, 2019. 4171–4186.]]>
谢腾, 杨俊安, 刘辉. 基于BERT-BiLSTM-CRF模型的中文实体识别. 计算机系统应用, 2020, 29(7): 48–55.
et al. ERNIE: Enhanced representation through knowledge integration. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. ACL, 2019. 1441–1451.]]>
et al. Multi-task deep neural networks for natural language understanding. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics , 2019. 4487–4496.]]>
et al. XLNet: Generalized autoregressive pretraining for language Understanding. arXiv: 1906.08237, 2019.]]>
et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv: 1907.11692, 2019.]]>
Joshi M, Chen DQ, Liu YH,
et al. ALBERT: A lite BERT for self-supervised learning of language representations. arXiv: 1909.11942, 2019.]]>
et al. Attention is all you need. Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach: Curran Associates Inc., 2017. 6000–6010.]]>
et al. Improving low resource named entity recognition using cross-lingual knowledge transfer. Proceedings of the 27th International Joint Conference on Artificial Intelligence. Stockholm: IJCAI, 2018. 4071–4077.]]>
et al. Dual adversarial neural transfer for low-resource named entity recognition. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019. 3461–3471.]]>
李冬梅, 张扬, 李东远, 等. 实体关系抽取方法研究综述. 计算机研究与发展, 2020, 57(7): 1424–1448.
Wang DS, Tiwari P, Garg S,
et al. Neural relation extraction with selective attention over instances. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. ACL, 2016. 2124–2133.]]>
et al. Self-training improves recurrent neural networks performance for temporal relation extraction. Proceedings of the 9th International Workshop on Health Text Mining and Information Analysis. Brussels: Association for Computational Linguistics, 2018. 165–176.]]>
et al. Classifying relations via long short term memory networks along shortest dependency paths. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon: Association for Computational Linguistics, 2015. 1785–1794.]]>
et al. Modeling relational data with graph convolutional networks. Proceedings of the 15th European Semantic Web Conference. Heraklion: Springer, 2018. 593–607.]]>
et al. Graph neural networks with generated parameters for relation extraction. Proceedings of the 57th Conference of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019. 1331–1339.]]>
et al. N-ary relation extraction using graph-state LSTM. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018. 2226–2235.]]>
Zheng SC, Hao YX, Lu DY,
et al. Joint extraction of entities and relations based on a novel tagging scheme. Proceedings of the 55th Annual Meeting of the Association for Computational linguistics (ACL). Vancouver: Association for Computational Linguistics, 2017. 1227–1236.]]>
Bekoulis G, Deleu J, Demeester T,
et al. Adversarial training for multi-context joint entity and relation extraction. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018. 2830–2836.]]>
Nayak T, Ng HT. Effective modeling of encoder-decoder architecture for joint entity and relation extraction. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(5): 8528–8535.
et al. Entity-relation extraction as multi-turn question answering. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019. 1340–1350.]]>
et al. A novel cascade binary tagging framework for relational triple extraction. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2020. 1476–1488.]]>
et al. Joint type inference on entities and relations via graph convolutional networks. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: Association for Computational Linguistics, 2019. 1361–1370.]]>
et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions. Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017. 3060–3066.]]>
et al. Reinforcement learning for relation classification from noisy data. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1): 5779–5786.]]>
鄂海红, 张文静, 肖思琪, 等. 深度学习实体关系抽取研究综述. 软件学报, 2019, 30(6): 1793–1818.
et al. Open information extraction using Wikipedia. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala: Association for Computational Linguistics, 2010. 118–127.]]>
et al. PATTY: A taxonomy of relational patterns with semantic types. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island: Association for Computational Linguistics, 2012. 1135–1145.]]>
et al. Open language learning for information extraction. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island: Association for Computational Linguistics, 2012. 523–534.]]>
et al. Event extraction via dynamic multi-pooling convolutional neural networks. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing: Association for Computational Linguistics, 2015. 167–176.]]>
et al. Collective event detection via a hierarchical and bias tagging networks with gated multi-level attention mechanisms. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: Association for Computational Linguistics, 2018. 1267–1276.]]>
et al. Joint entity and event coreference resolution across documents. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island: Association for Computational Linguistics, 2012. 489–500.]]>
Barhom S, Shwartz V, Eirew A,
et al. Capturing event argument interaction via a bi-directional entity-level recurrent decoder. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Association for Computational Linguistics, 2021. 210–219.]]>
et al. From discourse to narrative: Knowledge projection for event relation extraction. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Association for Computational Linguistics, 2021. 732–742.]]>