﻿ 基于混合模型的新闻事件要素提取方法
 计算机系统应用  2018, Vol. 27 Issue (12): 169-174 PDF

News Event Element Extraction Method Based on Mixed Model
YU Jin-Zhong, YANG Xian-Feng, CHEN Yan, LI Juan
School of Computer Science, Southwest Petroleum University, Chengdu 610500, China
Foundation item: Young Scientists Fund of National Natural Science Foundation of China (61503312)
Abstract: In order to help readers quickly grasp the main content of a large amount of news report information, this paper analyzes the impact of event elements on the main news content, and combines the basic principles and requirements of news reports, proposes a method of extracting event elements based on hybrid model. The proposed method first weighs the entities recognized in the news data, and then uses the dependency syntax tree to analyze the role of entities in news events, and dispels the reference phenomenon of elements. Finally, the fusion frequency and role relationship are used to improve the entity weighting method and effectively extract the important elements of news event relevance. The experimental results show that the method described in this study can accurately extract event elements with strong relevance to news events and improve the efficiency of readers’ rapid selection of news event elements.
Key words: Chinese name entity recognition     POS tagging     Conditional Random Fields (CRF)     dependency syntax     hybrid model

1 概述

2 相关工作 2.1 挖掘要素的方法

2.2 命名实体识别方法与依存句法分析 2.2.1 命名实体识别

CRF是一种概率无向图模型, 它能够被用来定义在给定一个观察序列x的条件下, 标记序列y的条件概率P(y|x), 是一种判别模型. 但在现实应用中, 尤其是对标记序列建模时, 最常采用线性链(linear-chain)CRF模型, 其图模型如下图1所示的结构.

 图 1 链式条件随机场的图结构

 $P(y|x) \!= \!\frac{1}{Z}\! + \!\exp (\sum\limits_j {\sum\limits_{i \!=\! 1}^{n - 1} {{\lambda _j}} } {t_j}({y_{j \!+ \!1}},{y_j},x,i)\! +\!\! \sum\limits_j {\sum\limits_{i \!=\! 1}^n \!{{u_k}} } {s_k} ({y_{i,}}x,i))$ (1)

2.2.2 依存句法分析

 图 2 依存句法分析例子

 图 3 依存句法分析器输入格式

3 提取中文新闻事件要素 3.1 语料收集与语料自动标注方法

3.2 提取刻画新闻事件要素

 图 4 提取新闻事件要素的流程

3.2.1 构建识别新闻实体模型

3.2.2 依存句法分析及指代消解

(1)首先如果句中人名是主谓关系或者非主谓关系, 并且句子中含有人称代词, 然后对此人名的权重增加1.

(2)在句中没有人名且含有人称代词的基础上, 尽管句中含有一系列的职位及称呼的名词, 但是考虑到事件人物的多样性, 实行零代词消解, 更能提高识别的容错率.

(3)句中含有人名和人称代词, 经判断得知识别的人名是一个单个姓氏词, 为减少人名识别的错误率, 使用jieba抽取的人名, 同(1)可以达到消除人称代词的效果.

3.2.3 权重融合及要素提取

(1) 使用Sigmoid函数把输入值(主谓关系类型的不同人名个数)“压缩”到0~1之间, 输出的值是相对应于人名的权重. 公式如下:

 ${\varphi _i} = \frac{{{x_i}}}{{perso{n_{\max }}}} \times {int}erva{l_\theta }$ (2)
 $f({\varphi _i}) = \frac{1}{{1 + {e^{ - {\varphi _i}}}}}$ (3)

personmax表示此新闻人名权重的最大值, intervalθ表示使用Sigmoid函数的区间长度,xi表示统计的主谓关系的人名个数; 通过式(3)对重要性不同程度的人名赋予权值, 根据权值抽取刻画新闻事件的人名.

(2)如果不考虑实体本身的权值, 直接对(1)所得人名根据权值抽取新闻事件人名要素; 否则, (1)所得与其对应的实体人名的权值(权值获取的方法与主谓关系人名计算权值一样)相融合, 然后抽取与事件关联密切的人名.

4 实验结果及分析

5 结束语

 [1] 裴东辉. 中文新闻事件抽取方法研究[硕士学位论文]. 昆明: 昆明理工大学, 2015. [2] 朱青, 李贞昊. 基于要素关联树的新闻发生地抽取技术研究. 网络新媒体技术, 2015, 4(3): 28-36, 59. DOI:10.3969/j.issn.2095-347X.2015.03.005 [3] 涂子令, 周枫, 余正涛, 等. 基于超图的汉越双语新闻话题要素提取. 计算机应用研究, 2017, 34(8): 2278-2281. DOI:10.3969/j.issn.1001-3695.2017.08.008 [4] 鞠久朋, 张伟伟, 宁建军, 等. CRF与规则相结合的地理空间命名实体识别. 计算机工程, 2011, 37(7): 210-212, 215. DOI:10.3969/j.issn.1000-3428.2011.07.071 [5] 孙镇, 王惠临. 命名实体识别研究进展综述. 现代图书情报技术, 2010(6): 42-47. [6] 徐靖, 李军辉, 朱巧明, 等. 基于短语和依存句法结构的中文语义角色标注. 计算机工程, 2011, 37(24): 169-172. DOI:10.3969/j.issn.1000-3428.2011.24.057 [7] 石翠. 依存句法分析研究综述. 智能计算机与应用, 2013, 3(6): 47-49. DOI:10.3969/j.issn.2095-2163.2013.06.013 [8] 龙光宇, 徐云. CRF与词典相结合的疾病命名实体识别. 微型机与应用, 2017, 36(21): 51-53. [9] 徐元子, 张迎新, 刘登第. 基于条件随机场的网络评论与事件中命名实体匹配研究. 计算机应用研究, 2016, 33(6): 1642-1647. DOI:10.3969/j.issn.1001-3695.2016.06.010 [10] Lafferty J, McCallum A, Pereira F. Conditional Random Fields: Probabilistic models for segmenting and labeling sequence data. Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA, USA. 2002. 282–289. [11] 隋臣. 基于深度学习的中文命名实体识别研究[硕士学位论文]. 杭州: 浙江大学, 2017. [12] 王雍凯, 毛存礼, 余正涛, 等. 基于图的新闻事件主题句抽取方法. 南京理工大学学报, 2016, 40(4): 438-443. [13] 邱莎, 段玻, 申浩如, 等. 基于条件随机场的中文人名识别研究. 昆明学院学报, 2011, 33(6): 64-66. [14] Ghani R, Probst K, Liu Y, et al. Text mining for product attribute extraction. ACM SIGKDD Explorations Newsletter, 2006, 8(1): 41-48. DOI:10.1145/1147234 [15] Qiu LK, Hu CJ, Zhao K. A method for automatic POS guessing of Chinese unknown words. Proceedings of the 22nd International Conference on Computational Linguistics. Manchester, UK. 2008. 705–712 [16] Chen DQ, Manning CD. A fast and accurate dependency parser using neural networks. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing EMNLP. Doha, Qatar. 2014. 740–750. [17] 郭江. 依存句法分析的置信度研究[硕士学位论文]. 哈尔滨: 哈尔滨工业大学, 2012. [18] 庞磊, 李寿山, 周国栋. 基于情绪知识的中文微博情感分类方法. 计算机工程, 2012, 38(13): 156-158, 162.