2. 广东工业大学 自动化学院, 广州 510006
2. School of Automation, Guangdong University of Technology, Guangzhou 510006, China
随着互联网的迅猛发展, 社交媒体逐渐成为情感表达和信息分享的主要平台, 越来越多的消费者在互联网平台上分享他们对某个产品所发表的观点和评价. 这些评论数据蕴含着用户的情绪信息, 对这些用户的情绪信息进行挖掘不仅能够帮助平台商家更好地理解用户需求, 而且在面对产品推广和改进时, 了解用户对其产品或具体方面的情感反馈, 可以用于产品推广和广告策略, 从而强调产品的优点. 目前情感分析在计算机领域有着广泛的应用, 方面级情感分析 (aspect-based sentiment analysis, ABSA)又称细粒度情感分析. 它不仅是识别文本的情感极性, 还进一步提取关于不同方面的情感信息. 而方面情感三元组提取 (aspect sentiment triplet extraction, ASTE)是ABSA的一种新变体. ASTE旨在从句子中提取方面术语和意见术语, 并确定它们的情感极性. 例如, 图1中展示的是ASTE的例子, 价格和餐厅环境两个方面的情绪极性分别为积极和消极. 其中方面词和意见词分别用绿色和蓝色显示, 情感级性用红色表示. 黑色箭头表示这两个单词具有句法依赖性, 即方面词“price”和意见词“reasonable”之间存在依赖关系. 通过ASTE可以精确地识别用户对某个方面的态度, 而不是简单地为整个句子分配情感极性, 从而帮助理解人们对于不同方面的意见和情感倾向.
目前大多数方面情感三元组提取方法存在以下两个问题.
(1) 根据依赖树中的依赖类型提取方面词和意见词时, 没有充分考虑句子的语法信息, 导致会出现依赖关系分析结果的不准确性的问题.
(2) 由于评论数据的复杂性和不规则性, 方面词和意见词之间隐含的语义关系往往被忽略, 导致无法全面准确地反映用户对特定方面复杂的情感表达.
为解决上述问题, 本文提出了一种结合语法结构和语义信息的方面情感三元组提取模型. 特别地, 针对依赖关系分析结果的不准确性的问题, 我们使用最先进的依赖解析模型LAL-Parser得到所有依赖弧的概率矩阵, 其中包含了丰富的语法信息, 可以有效增强方面词和意见词之间的对应关系, 减少依赖关系分析错误. 此外针对无法全面准确地获取用户对特定方面的情感表达, 清楚用户需求, 我们设计了一个自注意力机制模块. 该模块利用自注意力机制构造语义图的邻接矩阵, 表示词之间的语义相关性, 通过自注意力机制降低噪声信息的不利影响, 从而提升模型对语义相关性的理解. 最后, 我们还提出相互仿射变换层, 用于更好地捕获语法结构和文本中的语义信息.
2 相关研究传统的情感分析任务是面向句子级或文档级的. 相比之下, ABSA是情感分析中更细粒度的任务. 而ASTE是ABSA领域的最新子任务之一. 最近, Peng等人[1]首先提出了ASTE任务并采用了两阶段管道模型. 第1阶段是预测所有方面词和它们相关的情感极性, 以及预测能够描述方面词对应的意见词. 第2阶段是将方面词与情感和意见词进行配对, 但是这些方法会存在错误传播的问题, 为了避免这种流水线方法的缺点, Xu等人[2]提出了一种创新的位置感知标记方案, 利用端到端的JET模型来提取三元组. 与传统方法相比, 我们首次设计了一套表达能力更强的新标签集, 从而直接避免了原模型在特征提取的完整性方面存在的缺点. 类似的, Wu等人[3]提出了一种全新的标记方案, 即网格标记方案(GTS), 它通过一个统一的网格标记任务一次性提取所有情感三元组. Span ASTE[4]是一种针对ASTE任务的方法, 它特别注重了短语之间的相互作用. 相比现有方法, 它克服了提取不完全和情感冲突的问题, 提供了更准确和一致的结果. Zhang等人[5]为了进一步探索这项任务, 他们成功实现了一个多任务学习框架, 并结合启发式规则来生成最终的三元组. Mao等人[6,7]将ASTE任务转换为机器阅读理解问题, 并利用共享的BERT编码器在多个阶段解码以获得三元组. 在这个转换过程中, 他们将ASTE的输入文本和标签转化为适合机器阅读理解的格式, 使得模型可以根据给定的问题和文本来提取相关的三元组信息. 与以往基于标记方案的方法不同, 还有研究引入了一种端到端无标记解决方案[8], 解决了先前基于标记的方法存在的不足之处. 此外, ASTE领域还有许多其他的建模范式被用于处理任务. 在一项研究中[9], 作者将ASTE任务转换为文本生成任务, 并设计了两种生成范式. 另一项研究[10]中的作者将ASTE任务转换为无序三元组集识别问题, 并将其建立在编码器-解码器架构上.
近期研究证明图卷积网络可以有效地处理ASTE任务. Chen等人[11]使用图神经网络(GNNs)为ASTE任务设计了一种图-序列双重表示和建模范式, 并且也证明了可行性. Sun等人[12]提出了ABSA任务的依赖树(CDT)模型的卷积. 该模型引入了解析器解析的依存树信息, 帮助识别与方面词相关的意见词, 并结合GCN在依存树上学习的语法信息特征. 但这些方法都会出现依赖关系分析结果的不准确性的问题. 此外, Zhou等人[13]提出了一种新的基于语法和知识的GCN(SK-GCN)模型. Hu等人[14]提出了一个新的端到端的模型, 结合了语法成分解析树和常识知识图, 该模型通过图卷积网络(GCN)将它们整合到ASTE任务, 帮助更好地识别方面词和与之相关的意见词. Shi等人[15]提出了一种创新的依赖图增强的交互式注意力网络, 该网络明确地考虑了词之间的语法关系. 最近, Chen等人[16]提出了一种新颖的解决方案, 该方案将句子中任意两个词之间的关系分为10种不同的类型, 并在建模过程中引入了语言特征. 然而, 目前现有的利用单词之间关系的方法存在一些局限性. 他们忽略了句子中语法结构和丰富的语义信息. 无法全面准确地获取用户对特定方面的情感表达, 清楚用户的需求. 因此仍然存在改进的空间.
3 结合语法结构和语义信息的情感三元组提取本文提出的结合语法结构和语义信息的情感三元组提取模型框架图如图2所示, 模型主要由以下7个部分组成.
(1) 输入层和编码层. 采用BERT模型对输入句子进行编码处理, 得到编码词序列.
(2) 语法图层. 利用依赖解析模型生成所有依赖弧的概率矩阵, 获取句子中潜在的语法结构信息, 得到句子中词与词之间的语法关系.
(3) 语义图层. 使用注意力机制对编码词序列的语义信息进行动态地捕捉从而获取句子中单词与单词之间丰富的语义关系.
(4) 相互仿射变换层. 可以有效地传递和交换语法图层和语义图层模块之间的相关特征.
(5) 双仿射注意力模块. 将交换语法图层和语义图层后的表示输入至双仿射注意力网络层进行词对关系分析, 得到多通道关系邻接张量.
(6) 预测层. 在依据多通道关系邻接张量计算出节点聚合矩阵后, 根据节点聚合矩阵、多通道关系邻接张量和预设语言特征张量计算词节点表示和边表示. 并采用分类器链根据词节点表示和边表示进行分类预测, 得到标签概率分布.
(7) 三元组解码层. 根据标签概率分布对目标文本句子进行三元组解码分析, 得到情感三元组, 情感三元组包括方面词、意见词和情感极性.
3.1 任务描述给定一个输入句子
我们为ASTE定义了句子中单词的10种关系. 具体来说, 这10种关系{B-A, I-A, A, B-O, I-O, O, POS, NEU, NEG, ⊥}, 用于对每个词对
3.3 模型 3.3.1 输入层和编码层
BERT已经证明了它在各种任务中的有效性. 我们使用BERT作为句子编码器来提取隐藏的上下文表示. 给定一个输入句子
我们使用BERT作为句子编码器, 用于提取隐藏状态向量表示, 随后将经过多层感知机得到隐藏状态向量作为语法图的初始节点表示. 为了编码语法信息, 我们采用了最先进的依赖解析模型LAL-Parser[17], 用于生成所有依赖弧的概率矩阵. 这个依赖概率矩阵包含了句子中潜在的语法结构信息, 通过提供不同的依赖弧概率, 反映了句子中词之间的语法关系. 通过将BERT和LAL-Parser结合起来, 这种结合可以帮助我们更好地理解句子中的语法结构.
给定一个有
$ h_i^S = \sigma \left(\sum\limits_{j = 1}^n {A_{ij}^sW{h_j} + b} \right) $ | (1) |
其中,
通过使用自注意机制获得注意力得分矩阵作为邻接矩阵, 我们可以构建一个更加灵活和适应性强的图结构, 用于表示句子中的单词之间的关系. 这种注意力机制允许模型在句子的表示中动态地捕捉重要的语义信息, 无需依赖预定义的语法结构. 因此, 自注意力能够更好地适应不同类型的句子和语言表达方式. 因为它能够更全面地捕捉句子的语义信息, 并且对于处理不规则性和复杂语法的句子也具有良好的适应性.
自注意力可以并行计算每对元素的注意分数. 在我们的模型中, 我们使用自注意层计算注意力得分矩阵
$ {A^a} = {\textit{Softmax}}\left(\frac{{Q{W^Q} \times {{(K{W^K})}^{\mathrm{T}}}}}{{\sqrt d }}\right) $ | (2) |
其中, 矩阵
我们使用注意力得分矩阵邻接矩阵
$ h_i^A = \sigma \left(\sum\limits_{j = 1}^n {A_{ij}^aW{h_j} + b} \right) $ | (3) |
其中,
为了有效地传递和交换语法图层和语义图层模块之间的相关特征, 我们引入了一种相互的仿射变换作为它们之间的桥梁. 这个相互的仿射变换可以在语法结构和语义信息之间建立强大的联系, 并促进信息的有效传递.
$ {H^{{S^*}}} = {\textit{Softmax}}({H^S}{({H^A})^{\mathrm{T}}}){H^A} $ | (4) |
$ {H^{{A^*}}} = {\textit{Softmax}}({H^A}{({H^S})^{\mathrm{T}}}){H^S} $ | (5) |
其中,
已经有研究证明在语法依赖解析任务中, 双仿射注意力模块是一种有效的方法. 因此, 我们采用了双仿射注意力模块来捕获句子中每个词对之间的关系概率分布. 双仿射注意过程被表述为:
$ R = {\textit{Biaffine}}(MLP(H), MLP({H^{{S^*}}})) $ | (6) |
$ {R^*} = {\textit{Biaffine}}(MLP({H^{{A^*}}}), MLP(H)) $ | (7) |
$ R = R + {R^*} $ | (8) |
其中,
首先, 为了建模单词之间的各种关系, 我们对最原始的图卷积网络GCN进行了扩展. 这个扩展版本包含双仿射注意模块, 用于构建多通道邻接张量
$ {H_m} = \sigma ({R_m}H{W_m} + {b_m}) $ | (9) |
$ H = f({H_1}, {H_2}, \cdots, {H_{{m}}}) $ | (10) |
其中,
同时为了增强我们的模型, 我们为每个词对引入了与EMC-GCN[16]中一致的4种类型的语言特征, 包括词性组合、语法依赖类型、基于树的距离和相对位置距离即
$ H = f(H, {H^{psc}}, {H^{dep}}, {H^{tbd}}, {H^{rpd}}) $ | (11) |
$ R = R \oplus {R^{psc}} \oplus {R^{dep}} \oplus {R^{tbd}} \oplus {R^{rpd}} $ | (12) |
其中,
其次, 为了获得用于标签预测的词对
$ {s_{i, j}} = {h_i} \oplus {h_j} \oplus {r_{ij}} $ | (13) |
最后, 我们将词对表示
$ {p_{i, j}} = {\textit{Softmax}}(W{s_{i, j}} + b) $ | (14) |
其中,
我们采用了一个上三角表来解码三元组. 首先, 使用基于主对角线的所有词对的预测关系
为了精确捕捉单词之间的关系, 我们对经过双仿射注意力模块获得的相邻张量施加约束.
$ {L_b} = - \sum\limits_i^n {\sum\limits_j^n {\sum\limits_{c \in C} {F({y_{ij}} = = c)\log ({r_{i, j|c}})} } } $ | (15) |
其中,
标准交叉熵损失
$ {L_p} = - \sum\limits_i^n {\sum\limits_j^n {\sum\limits_{c \in C} {F({y_{ij}} = = c)\log ({p_{i, j|c}})} } } $ | (16) |
我们的目标是最小化目标函数:
$ L = {L_p} + \mu {L_b} + \nu ({L^{psc}} + {L^{dep}} + {L^{tbd}} + {L^{rpd}}) $ | (17) |
其中, 参数
在本节中, 我们将介绍有关实验的信息, 包括数据集、评估指标、基线、实现细节、实验结果和消融研究.
4.1 数据集我们在两个ABSA数据集上评估我们的方法. 第1个数据集ASTE-Data-v1由Wu等人[3]注释. 第2个数据集ASTE-Data-v2由Xu等人 [2]注释. 这两个数据集都包含来自笔记本电脑领域和餐厅领域的用户评论数据. 它们全部分为3个部分: 训练集、验证集和测试集. 这些数据集的详细信息如表1所示.
4.2 评估指标
为了客观地评估不同方法在ASTE任务中的性能, 我们采用了广泛使用的评估指标, 包括精确度(P)、召回率(R)和F1值. 在这种评估中, 我们定义一个三元组在其所有元素与基准数据中的真实取值一致时, 该三元组为正确的. 为了确保结果的稳定性, 我们使用F1值选择最佳模型权重, 以确保选择最优模型进行测试. 同时, 我们使用3次不同的随机种子进行实验, 并取平均值作为最终的报告结果.
4.3 基线我们将以下模型作为本方法的基线模型进行比较. 这些方法可以简单地分为管道方法、端到端方法和基于阅读理解这3类方法.
(1) 管道方法: Peng-twostage+IOG和IMN+IOG.
(2) 端到端方法: OTE-MTL, JET, GTS-BERT, DGEIAN, GCN-EGTS (BERT), EMC-GCN.
(3) 基于MRC的方法: BMRC.
4.4 实现细节本文选用 BERT 预训练的词向量作为词嵌入. 为了编码语法信息, 我们利用依赖解析器得到所有依赖弧的概率矩阵来捕获丰富的语法结构信息, 语法图层和语义图层的dropout率设置为0.1, 层数设置为1, 它们的隐藏状态维数设置为300. AdamW优化器用于BERT 微调的学习率为
主要实验结果如表2和表3所示. 在F1指标下, 我们的模型在所有数据集上优于所有其他替代方案. 此外, 在大多数情况下, 我们的模型的性能超过其他方法在P和R的度量. 我们观察到, 端到端和基于MRC的方法比流水线方法取得了更显著的改进, 因为它们建立了这些子任务之间的相关性, 我们观察到端到端和基于MRC的方法比流水线方法取得了更显著的改进, 因为它们建立了这些子任务之间的相关性, 并通过联合训练多个子任务来缓解错误传播问题. OTE-MTL和GTS-BERT的标记方案类似于表填充. 与GTS-BERT 相比, 我们的模型在ASTE-Data-v1和ASTE-Data-v2数据集上F1值显著超过了GTS-BERT的F1值平均3.26%和3.67%, 在ASTE-Data-v1数据集上, 与EMC-GCN相比我们的模型在Rest14, Lap14, Rest15和Rest16上分别实现了F1值的1.20%, 1.35%, 2.19%和1.90%的明显绝对增加. 实验结果表明在数据量比较小的Rest15和Rest16数据集上, 融合语法结构和丰富的语义信息可以更好地对情感三元组进行提取.
4.6 消融研究
为了研究我们的模型中不同模块的有效性, 我们对ASTE-Data-v2进行了消融研究. 从表4的实验结果表明, 本文设计的模块对模型性能的提升均有影响, 语法图模块对模型有一定影响, 因为该模块可以利用依赖解析器中的概率矩阵来表示单词之间的依赖关系概率, 从而捕捉丰富的语法信息. 此外, 语义图模块对模型也有一定影响, 因为该模块可以通过注意分数来精确捕捉词与词之间的语义相关性, 提升了模型对语义关联性的理解. 其中移除相互仿射变换模块对模型性能影响最大, 这充分说明了移除该模块后语法信息和语义信息就不能很好进行交互, 因此, 在数据集上性能会大幅下降. 消融实验结果示于表4中. 我们的模型在Rest14, Lap14, Rest15和Rest16上分别实现了F1值的1.51%, 1.47%, 1.72%和1.76%的明显绝对增加.
5 结论
在本文中, 我们提出了一种新的端到端模型, 用于进行ASTE任务, 该模型充分地融合了句子的语法结构和丰富的语义信息, 可以更好地理解复杂评论中方面词和意见词之间隐含的语义关系. 首先, 为提高依赖关系分析结果的准确性, 模型利用依赖解析器中的概率矩阵来表示单词之间的依赖关系概率, 从而捕捉丰富的语法信息. 此外, 该模型还设计了一个自注意机制模块, 该模块利用自注意力网络构造语义图的邻接矩阵, 从而表示词之间的语义相关性. 另外, 为了更好地结合语法结构和语义信息来增强三元组的提取任务, 模型提出了一种相互仿射变换模块. 这个模块通过多次交互有效地捕捉了句子的语法结构和语义信息. 在多个公开数据集上进行了广泛的实验, 本文提出的模型在ASTE任务上始终优于所有基准模型. 这些实验证明了在ASTE任务中, 有效利用句子的语法结构和丰富的语义信息是一个有前途的方向.
[1] |
Peng HY, Xu L, Bing LD, et al. Knowing what, how and why: A near complete solution for aspect-based sentiment analysis. Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York: AAAI, 2020. 8600–8607.
|
[2] |
Xu L, Li H, Lu W, et al. Position-aware tagging for aspect sentiment triplet extraction. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. ACL, 2020. 2339–2349.
|
[3] |
Wu Z, Ying CC, Zhao F, et al. Grid tagging scheme for aspect-oriented fine-grained opinion extraction. Proceedings of the 2020 Findings of the Association for Computational Linguistics. ACL, 2020. 2576–2585.
|
[4] |
Xu L, Chia YK, Bing LD. Learning span-level interactions for aspect sentiment triplet extraction. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. ACL, 2021. 4755–4766.
|
[5] |
Zhang C, Li QC, Song DW, et al. A multi-task learning framework for opinion triplet extraction. Proceedings of the 2020 Findings of the Association for Computational Linguistics. ACL, 2020. 819–828.
|
[6] |
Mao Y, Shen Y, Yu C, et al. A joint training dual-MRC framework for aspect based sentiment analysis. Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 13543–13551.
|
[7] |
Chen SW, Wang Y, Liu J, et al. Bidirectional machine reading comprehension for aspect sentiment triplet extraction. Proceedings of the 35th AAAI Conference on Artificial Intelligence. AAAI, 2021. 12666–12674.
|
[8] |
Mukherjee R, Nayak T, Butala Y, et al. PASTE: A tagging-free decoding framework using pointer networks for aspect sentiment triplet extraction. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana: ACL, 2021. 9279–9291.
|
[9] |
Zhang WX, Li X, Deng Y, et al. Towards generative aspect-based sentiment analysis. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. ACL, 2021. 504–510.
|
[10] |
Fei H, Ren YF, Zhang Y, et al. Nonautoregressive encoder-decoder neural framework for end-to-end aspect-based sentiment triplet extraction. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(9): 5544-5556. DOI:10.1109/TNNLS.2021.3129483 |
[11] |
Chen ZX, Huang H, Liu B, et al. Semantic and syntactic enhanced aspect sentiment triplet extraction. Proceedings of the 2021 Findings of the Association for Computational Linguistics. ACL, 2021. 1474–1483.
|
[12] |
Sun K, Zhang RC, Mensah S, et al. Aspect-level sentiment analysis via convolution over dependency tree. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong: ACL, 2019. 5679–5688.
|
[13] |
Zhou J, Huang JX, Hu QV, et al. SK-GCN: Modeling syntax and knowledge via graph convolutional network for aspect-level sentiment classification. Knowledge-based Systems, 2020, 205: 106292. DOI:10.1016/j.knosys.2020.106292 |
[14] |
Hu ZD, Wang ZX, Wang YL, et al. Aspect sentiment triplet extraction incorporating syntactic constituency parsing tree and commonsense knowledge graph. Cognitive Computation, 2023, 15(1): 337-347. DOI:10.1007/s12559-022-10078-4 |
[15] |
Shi LL, Han DH, Han JY, et al. Dependency graph enhanced interactive attention network for aspect sentiment triplet extraction. Neurocomputing, 2022, 507: 315-324. DOI:10.1016/j.neucom.2022.07.067 |
[16] |
Chen H, Zhai ZP, Feng FX, et al. Enhanced multi-channel graph convolutional network for aspect sentiment triplet extraction. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Dublin: ACL, 2022. 2974–2985.
|
[17] |
Mrini K, Dernoncourt F, Tran QH, et al. Rethinking self-attention: Towards interpretability in neural parsing. Proceedings of the 2020 Findings of the Association for Computational Linguistics. ACL, 2020. 731–742.
|
[18] |
Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification. Machine Learning, 2011, 85(3): 333-359. DOI:10.1007/s10994-011-5256-5 |