计算机系统应用  2021, Vol. 30 Issue (6): 203-208   PDF    
基于LAAE网络的跨语言短文本情感分析方法
沈江红1,2, 廖晓东1,2,3,4     
1. 福建师范大学 福建省光电传感应用工程技术研究中心, 福州 350117;
2. 福建师范大学 光电与信息工程学院, 福州 350117;
3. 福建师范大学 医学光电科学与技术教育部重点实验室, 福州 350117;
4. 福建师范大学 福建省光子技术重点实验室, 福州 350117
摘要:跨语言短文本情感分析作为自然语言处理领域的一项重要的任务, 近年来备受关注. 跨语言情感分析能够利用资源丰富的源语言标注数据对资源匮乏的目标语言数据进行情感分析, 建立语言之间的联系是该任务的核心. 与传统的机器翻译建立联系方法相比, 迁移学习更胜一筹, 而高质量的跨语言文本向量则会提升迁移效果. 本文提出LAAE网络模型, 该模型通过长短记忆网络(LSTM)和对抗式自编码器(AAE)获得含上下文情感信息的跨语言向量, 然后利用双向GRU (Gated Recurrent Unite)进行后续情感分类任务. 其中, 分类器首先在源语言上进行训练, 最后迁移到目标语言上进行分类任务. 本方法的有效性体现在实验结果中.
关键词: 跨语言情感分析    迁移学习    长短记忆网络    对抗式自编码器    双向GRU    
Cross-Lingual Short Text Sentiment Analysis via LAAE
SHENG Jiang-Hong1,2, LIAO Xiao-Dong1,2,3,4     
1. Fujian Provincial Engineering Technology Research Center of Photoelectric Sensing Application, Fujian Normal University, Fuzhou 350117, China;
2. College of Photonic and Electronic Engineering, Fujian Normal University, Fuzhou 350117, China;
3. Key Laboratory of Optoelectronic Science and Technology for Medicine of Ministry of Education, Fujian Normal University, Fuzhou 350117, China;
4. Fujian Provincial Key Laboratory of Photonics Technology, Fujian Normal University, Fuzhou 350117, China
Abstract: As a significant task in natural language processing, cross-lingual sentiment analysis is able to leverage the data and models available in rich-resource languages when solving any problem in scarce-resource settings, which has acquired widespread attention. Its core is to establish the connection between languages. In this respect, transfer learning performs better than traditional translation methods and can be enhanced by high-quality cross-lingual text vectors. Therefore, we propose an LAAE model in this study, which uses Long Short Term Memory (LSTM) and an Adversarial AutoEncoder (AAE) to generate contextual cross-lingual vectors and then applies the Bidirectional Gated Recurrent Unit (BiGRU) for subsequent sentiment classification. Specifically, the training in the source language is transferred to that in the target language for classification. The results prove that the proposed method is effective.
Key words: cross-lingual sentiment analysis     transfer learning     LSTM     Adversarial AutoEncoder (AAE)     BiGRU    

情感分析[1,2]的主要任务是分析隐含在文本中的感情、态度、观点等深层次信息. 近年来, 互联网的迅猛发展, 给人们的生活带来了巨大的变化. 在世界范围内, 越来越多的网民在各大平台发表自己的观点, 互联网上逐渐出现了不同国家和地区的语言文字, 这些非规范的短文本蕴含了大众对事物的褒贬, 亦或是自己的需求等信息, 不仅在商业界而且在学术界备受关注. 比如亚马逊上的商品销往全球, 同时商家也会收到不同语言的评论, 比如“This skirt is beautiful”, “这个裙子太漂亮了”, “Este vestido es hermoso”等. 虽然语言形式不同, 但都包含了人们对商家所售商品的褒贬, 所以深层挖掘这些评论背后的信息, 有利于商家了解市场, 并及时作出相应地调整, 所以具有很大的研究价值. 由于英语的语料资源丰富且有大量的的标注数据集, 所以基于英语语境下的研究工作已渐入佳境, 而对于语料资源相对匮乏的语种的研究工作则不易开展. 跨语言情感分析能够借助资源丰富的源语言标注数据, 对标注资源相对匮乏的目标语言数据进行情感分析, 所以越来越受到研究者的青睐.

近年来许多研究者投身于跨语言情感分析的研究工作中, 并取得了很大的进步. 传统的研究方法是基于机器翻译进行的, 然而翻译的质量很大程度上影响着分类效果. 随着深度学习技术的不断发展, 一种基于映射的研究方法应运而生. 该方法主要思想是利用深度学习的方法学习一种映射, 将源语言和目标语言映射到同一个向量空间, 得到跨语言情感向量, 然后再进行特征提取和情感分析任务. 如何高效地学习得到这个映射并获得高质量的跨语言向量, 则是该工作的核心环节.

本文在深度学习的基础上, 提出LAAE网络模型, 并将跨语言情感分析任务分成两个部分: 第1部分是通过LAAE模型获得含上下文情感信息的跨语言向量; 第2部分是进行短文本情感分类, 利用双向GRU进行情感特征提取, 并完成情感分类任务.

1 相关工作 1.1 跨语言情感分析

众所周知, 进行情感分析工作的前提是收集大量的标注数据. 不同于单语言情感分析, 跨语言情感分析则是利用资源丰富的源语言标注数据去预测资源匮乏语言的情感, 其过程极具复杂性, 目前研究方法主要有两种, 一是传统的基于机器翻译的方法, 二是在深度学习基础上的基于映射的方法.

机器翻译的方法是将目标语言和源语言进行互译, 建立语言连接, 然后进行后续的情感分析[3]. 机器翻译使得跨语言文本之间没有共同词项特征的问题得到解决. Duh等[4]通过实验发现, 利用机器翻译, 由日文文本翻译得到的英文文本, 其与源英文文本之间的词汇重叠率很低, 所以机器翻译的质量还有待提升. Zhou等[5]指出机器翻译还有可能会改变文本的极性, 例如, 英文文本的“It’s too fragrant to sleep”, 通过谷歌翻译, 得到的中文译文是“睡的太香了”, 属于积极情感. 但是在源语言中该文本表达的意思是 “太香了而无法入睡”, 属于消极情感. 唐晓波等[6]通过实验发现翻译的质量会影响分类效果. 所以目前通过机器翻译工具翻译的语句, 其翻译结果的准确性仍然有待提高.

基于映射的方法[7], 主要思想是利用深度学习技术学习一种映射, 将源语言和目标语言映射到同一个向量空间, 进而得到跨语言情感向量, 然后再进行特征提取和情感分析任务, 而如何高效地习得这个映射并获得高质量的跨语言向量, 则是工作的核心部分. Faruqui等[8]利用种子词典和平行语料库去学习这样一个线性映射, 但建立种子词典和平行语料库这件事本身需要耗费大量的人力和物力. Artetxe等[9,10]则通过一系列的线性变换, 去学习这个映射. Zhang等[11]通过对抗训练, 获得双语词典索引. 但王坤峰等[12]指出生成对抗网络(GAN)存在一些难以克服的缺点, 比如模型不易训练, 生成的数据可解释性不高, 模型鲁棒性不高等. Zhou等[5]利用多个自动编码器来学习这个映射, 然后进行跨语言情感分析的研究.

GAN (Generative Adversarial Network)及其变种目的都是学习从零均值、一方差的标准高斯分布到复杂样本分布的映射. 本文采用Makhzani等[13]提出的对抗自编码器(AAE), 因为在生成对抗网络中加入自编码器, 可促进生成器生成的数据更加贴合输入的数据, 从而有效地避免无效数据或噪声的产生, 使得模型更加高效.

1.2 深度学习

与传统的特征提取方法相比, 深度学习技术擅长自动地提取特征, 从而很大程度上节约了人力物力等成本. 近年来, 因其天然的优势, 吸引了大量的研究者投身其中, 并且在自然语言处理(NLP)领域, 尤其是在情感分析任务中, 提出了很多性能优良的模型.

1.2.1 长短记忆网络(LSTM)

由Hochreiter等[14]提出的长短记忆网络(LSTM)克服了RNN的长距离依赖的问题, 是一种特殊的递归神经网络(RNN). LSTM的核心结构, 如图1所示. 其重要结构是3个门, 分别是输入门、遗忘门和输出门, 主要用来控制信息的更新与流动. 另一个核心结构是细胞状态线, 在结构上方像流水线一样地运转, 起到存储记忆的作用, 并进行信息的传播和更新.

图 1 LSTM结构图

GRU (Gate Recurrent Unit)是LSTM的一个很特殊的变体, 其内部结构如图2所示, 相比较于LSTM, GRU将输入门和遗忘门合并为更新门, 使得模型更加简洁, 提取特征能力更敏捷且易训练, 多用于情感分类任务.

图 2 GRU内部结构图

1.2.2 对抗自编码器(AAE)

对抗自编码器主要由3个模块组成, 分别是编码器、解码器、判别器, 其内部结构如图3所示. 编码器和解码器两者结合, 构成一个普通的自编码器, 输入复杂样本, 并要求在解码器的输出端重构; 判别器输入编码向量, 判定它是来自一个真实的标准高斯分布, 还是来自编码器的输出. 判别器试图区分编码向量的真假, 编码器则试图迷惑判别器, 编码器和判别器两者相互博弈, 最终导致判别器混淆不清, 训练完成.

图 3 对抗自编码器结构图

1.2.3 迁移学习

领域自适应是一种迁移学习, 它将不同领域的数据或特征映射到同一个特征空间, 以便于利用其源领域数据或特征来加强目标领域的训练, 进而达到更好的训练效果[15,16]. Kim等[17]在迁移学习的基础上, 利用不同语言间的共享词向量进行对抗训练, 克服了训练过程中不同语言间的差异问题. 由于高质量的标注数据的匮乏, 且人工标注的成本颇高, 迁移学习在NLP领域的众多任务中发挥着重要的作用.

2 研究方法

本文提出的基于LAAE网络模型的跨语言短文本情感分析方法, 主要分为两个部分, 第1部分是跨语言向量的生成, 具体步骤是将Word2Vec生成的各语言文本向量, 先经过LSTM网络, 目的是获得含上下文信息的向量, 然后再通过AAE模型学习一个高质量的转换矩阵M, 将源语言和目标语言转换到同一向量空间, 如图4 所示(可视化后, “爱”和“Love”转换到同一空间), 最后获得含上下文信息的跨语言向量. 第二部分是跨语言情感分类, 分类器在源语言上被训练完成, 然后迁移到目标语言上, 完成对目标语言的情感分类任务. 图5是本文研究方法的总体框架图.

图 4 向量转换图

图 5 LAAE模型框架图

2.1 含上下文信息的跨语言向量的生成模块

LSTM网络具有记忆功能, 将文本向量通过LSTM网络, 可获得含上下文信息的文本向量, 提高输入向量的质量, 减少噪声. GAN及其变种目的都是学习从零均值、一方差的标准高斯分布到复杂样本分布的映射. GAN网络模型生成数据可解释性差, 产生很多的无效数据. 由Makhzani等[13]提出的对抗自编码器(AAE), 主要思想是在GAN中加入自编码器, 从而使得生成数据更接近于输入数据, 避免无效数据的产生, 使得模型更加高效. 我们利用AAE学习到转换矩阵M, 再将M和源语言向量X相乘, 如式(1)所示. 得到转换后的矩阵Z, 此时的Z和目标语言向量T在同一空间, 最终建立了源语言和目标语言之间的联系.

$Z = M \times X$ (1)
2.2 跨语言情感分类器的迁移模块

BiGRU (Bidirectional Gated Recurrent Unit)分类器模型, 如图6所示, 其主要是通过两个反向的GRU, 分别是向前GRU和向后GRU, 进行特征提取工作. 例如: 输入j个句子的第t个单词的词向量为 ${c_{ijt}}$ , 通过BiGRU层特征提取后, 可以更加充分地学习上下文之间的关系, 进行语义编码成 ${h_{ijt}}$ , 具体计算公式如式(2)所示:

$ {{h}}_{{ijt}}={B}iGRU{{(c}}_{{ijt}}{)}, t\in [1,m]$ (2)

最后利用 Softmax 函数对输出层的输入进行相应计算, 同时完成跨语言文本情感分类任务.

目标语言本身可标注资源稀缺, 此时迁移学习技术恰到好处地解决这个困难. 分类器在源语言上进行训练, 然后迁移到目标语言上, 完成目标语言的情感分类任务.

图 6 BiGRU内部结构图

3 实验结果及分析 3.1 实验数据集

为了验证本文所提出的分类法的有效性, 本文以英语为源语言, 中文和德语为目标语言, 进行实验验证. 1)实验采用Prettenhofer 等[18]提供亚马逊不同类目下的产品评论数据集. 该数据集中包含3个产品领域(书籍、DVD和音乐)和4种语言(英文、日语、法语和德语)的用户评论数据集. 每个领域中的数据分为训练集、测试集和无标注文本, 大小分别是27815、3200和80000. 本文选用了数据集中的英文和德语评论数据集. 2)通过网络爬虫程序从亚马逊中文站爬取书籍、音乐和 DVD 类目的中文评论, 并作为中文数据集. 由于实验设备的性能, 以及各领域无标注文档在数量上的差异问题, 本文在各领域中统一使用15000条无标注文档.

3.2 对比实验

(1) 基于机器翻译, 以SVM作为分类器, 简称MT-SVM: 利用机器翻译, 将目标语言翻译成源语言, 在源语言上训练分类器SVM, 最后利用训练好的分类模型, 对翻译成源语言的测试集进行情感分类.

(2) 基于机器翻译, 以BiGRU为分类器, 简称MT-BiGRU: 利用机器翻译, 将目标语言翻译成源语言, 在源语言上训练分类器BiGRU, 最后利用训练好的分类模型, 对翻译成源语言的测试集进行情感分类.

(3) 基于映射的方法, 利用AAE模型, 以BiGRU为分类器, 简称AAE-BiGRU: 利用对抗自编码器(AAE), 学习源语言和目标源之间的转换矩阵, 获得跨语言向量, 在源语言上训练分类器BiGRU, 最后将训练好的分类器迁移到目标语言上, 对目标语言测试集进行情感分类.

3.3 实验设计

本实验是在Keras及TensorFlow深度学习框架下进行. 参数设置如表1所示.

表 1 参数设置表

3.4 实验结果

本文实验中, 对比实验方法有MT-SVM、MT-BiGRU、AAE-BiGRU, 将英语设为源语言, 中文和德语设为目标语言. 模型性能评估指标为各方法在跨语言环境下的文本情感分类的F1值, 结果如表 2 所示.

表 2 不同方法的F1值(最好的结果已加粗表示)

表2可以看出, 基于的映射方法的F1值明显高于机器翻译的方法. 同样都是基于映射的方法, 本文的方法和AAE-BiGRU相比较, 平均F1值从0.7552提高到0.7797, 可见高质量的跨语言向量, 影响分类效果. 本文通过LAAE模型得到含上下文信息的跨语言向量, 从而极大地提高了分类效果. 通过学习一个映射, 将不同语言的评论映射到同一特征空间, 从而建立不同语言之间联系, 可促进两者之间知识迁移, 有利于进行跨语言情感分类工作.

4 结论与展望

情感分析的研究在资源丰富的语言领域已经很成熟, 而在资源稀缺的语言领域则有很大的研究空间. 本文以跨语言情感分析为任务, 在迁移学习基础上, 提出LAAE分析方法, 即通过LSTM和AAE网络模型, 获得含上下文信息的跨语言向量, 最后利用BiGRU进行分类任务. 通过实验证明高质量的含上下文信息的跨语言向量, 可以促进跨语言迁移学习的更好进行, 进而提高模型性能.

今后的研究工作可做以下两方面的改进: 一方面, 我们将重点研究用于迁移学习的新方法, 并将目标语言扩展到更多的语言. 另一方面, 我们会尝试调试我们的模型做更细粒度情感分析, 因为除了消极、中立和积极情绪外, 还有存在更多的情绪特征.

参考文献
[1]
Liu B. Sentiment Analysis: Mining Opinions, Sentiments, and Emotions. New York: Cambridge University Press, 2015.
[2]
Munkhdalai T, Yu H. Neural tree indexers for text understanding. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain. 2017. 11–21.
[3]
Wan XJ. Co-training for cross-lingual sentiment classification. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Japan. 2009. 235–243.
[4]
Duh K, Fujino A, Nagata M. Is machine translation ripe for cross-lingual sentiment classification? Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA. 2011. 429–433.
[5]
Zhou GY, Zhu ZY, He TT, et al. Cross-lingual sentiment classification with stacked autoencoders. Knowledge and Information Systems, 2016, 47(1): 27-44. DOI:10.1007/s10115-015-0849-0
[6]
唐晓波, 刘一平. 基于依存句法的跨语言细粒度情感分析. 情报理论与实践, 2018, 41(6): 124-129.
[7]
Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space. arXiv preprint arXiv: 1301.3781, 2013.
[8]
Faruqui M, Dyer C. Improving vector space word representations using multilingual correlation. Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden. 2014. 462–471.
[9]
Artetxe M, Labaka G, Agirre E. Learning principled bilingual mappings of word embeddings while preserving monolingual invariance. Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, TX, USA. 2016. 2289–2294.
[10]
Artetxe M, Labaka G, Agirre E. Generalizing and improving bilingual word embedding mappings with a multi-step framework of linear transformations. Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, LA, USA. 2018. 5012–5019.
[11]
Zhang M, Liu Y, Luan HB, et al. Adversarial training for unsupervised bilingual lexicon induction. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, BC, Cananda. 2017. 1959–1970.
[12]
王坤峰, 苟超, 段艳杰, 等. 生成式对抗网络GAN的研究进展与展望. 自动化学报, 2017, 43(3): 321-332.
[13]
Makhzani A, Shlens J, Jaitly N, et al. Adversarial Autoencoders. arXiv preprint arXiv: 1511.05644, 2016.
[14]
Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[15]
Pan SJ, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359. DOI:10.1109/TKDE.2009.191
[16]
Yang ZL, Salakhutdinov R, Cohen WW. Transfer learning for sequence tagging with hierarchical recurrent networks. Proceedings of the 5th International Conference on Learning Representations. Toulon, France. 2017.
[17]
Kim JK, Kim YB, Sarikaya R, et al. Cross-lingual transfer learning for POS tagging without cross-lingual resources. Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Demark. 2017.2832–2838.
[18]
Prettenhofer P, Stein B. Cross-lingual adaptation using structural correspondence learning. ACM Transactions on Intelligent Systems and Technology, 2011, 3(1): 13.
[19]
Kingma DP, Ba J. Adam: A method for stochastic optimization. arXiv preprint arXiv: 1412.6980, 2014.
[20]
Shore J, Johnson R. Axiomatic derivation of the principle of maximum entropy and the principle of minimum cross-entropy. IEEE Transactions on Information Theory, 1980, 26(1): 26-37. DOI:10.1109/TIT.1980.1056144
基于LAAE网络的跨语言短文本情感分析方法
沈江红, 廖晓东