计算机系统应用  2021, Vol. 30 Issue (3): 196-201   PDF    
基于机器学习的文学作品英译自动评价
孙李丽1, 郭琳2, 张文诺1, 文旭3     
1. 商洛学院 人文学院, 商洛 726000;
2. 商洛学院 电子信息与电气工程学院, 商洛 726000;
3. 西南大学 外国语学院, 重庆 400715
摘要:为了提高文学英译作品自动评价的水平, 引入基于机器学习的智能算法模型成为当前最有效的方法. 首先研究文学作品的翻译规则和特殊性, 建立基于变量特征的翻译评价指标体系; 然后利用Python语言平台, 英译文本经Stanford Parser、NLTK等工具包过滤预处理之后, 采取VSM向量空间模型获得特征编码和特征度, 再输入到Random-RF、Original-RF和AHP-RF算法模型中训练学习, 完成翻译质量评价与分析. 实验结果表明, 融合层次分析法、灰色关联法和随机森林算法的AHP-RF模型的分类效果优于其它2种, 同时人工译本相较于其它4种机器译本, 质量评分高、分类错误率小, 评价结果与实际翻译情况吻合.
关键词: 机器学习    随机森林    AHP-RF    自动评价    
Automatic Evaluation for English Translation of Literary Works Based on Machine Learning
SUN Li-Li1, GUO Lin2, ZHANG Wen-Nuo1, WEN Xu3     
1. School of Humanities, Shangluo University, Shangluo 726000, China;
2. Electronic Information and Electrical Engineering College, Shangluo University, Shangluo 726000, China;
3. College of International Studies, Southwest University, Chongqing 400715, China
Foundation item: Open Fund of Shangluo Culture and Jia Pingwa Research Centre (17SLWH09); Service Local Project of Shangluo University (18SKY-FWDF009); Major Program of National Social Science Foundation of China (15ZDB099)
Abstract: The intelligent algorithm model based on machine learning has become the most effective method at present to improve the automatic evaluation for the English translation of literary works. First, the translation rules and particularity of literary works are studied, and the index system of translation evaluation based on the variable features is established. Then, with the aid of the Python language platform, after the English translation is filtered and preprocessed by tools such as Stanford Parser and NLTK, the feature codes and feature degree are obtained with the Vector Space Model (VSM). Furthermore, the results are input into the Random-RF, Original-RF, and AHP-RF algorithm models for training and learning. Thus, the evaluation and analysis of translation quality are completed. The experimental results show that the AHP-RF model combining the analytic hierarchy process, the grey correlation method, and the random forest algorithm has better classification than the other two. Meanwhile, compared with the other four machine translation versions, the manual translation has a high quality score and a low classification error, and the corresponding evaluation results are consistent with the actual translation.
Key words: machine learning     random forest     AHP-RF     automatic evaluation    

机器翻译效率高、成本低, 随着人工智能技术发展得到广泛应用, 同时人们对翻译质量的诉求也越来越高. 衡量一个翻译作品的质量主要看是否忠于源语, 以及目标语的语法、语义错误和优美程度, 特别是地域文化和方言气息浓厚的文学作品, 译文不仅要准确描述内容情节, 还要真实表达人设、历史、社会和文化环境, 因此翻译评价和机器翻译类似, 需要对作品解码和重新编码, 通过融合和训练, 合理科学评价作品翻译质量. 智能翻译评价系统需要算法或者模型来完成文本变量特征的表征[1], 再通过规则构造评价权重集, 最后用匹配模型实现译文的评价和分析. 目前已有专家开始探索定性或定量的翻译质量评价方法. 哈尔滨工业大学的赵铁军等最先提出人工评价和自动评价思路, 利用句子相似度评价EBMT系统翻译质量[2]; 其后苏州大学的周国栋等总结自动评价的3个方面, 包括语言学检测点、字符串匹配和机器学习[3]; 厦门大学的周敏康等提出用层次分析法和模糊数学模型定量评价机器译文翻译质量[4]; 中国科学院的刘群等提出融合策略, 多角度综合评价方法, 比如在Blend上, 对比使用SVM和FFNN两种机器算法[5]; 北京交通大学的刘明童等提出利用跨语句注意力机制构建BP复述识别模型, 提高翻译准确性[6]. 关于文学作品机器翻译和评价出现较晚, 相关翻译评价模型, 需要结合作品语言特点改进机器评价方法, 提高自动翻译评价水平. 本文提出一种融合策略, 充分利用层次分析法中专家打分的主观能动性和灰色关联度法中相似行为映射结果的客观科学性, 以及随机森林算法中的集成学习策略和分类评价优势, 建立面向文学作品翻译的评价指标体系和模型, 并通过地方戏剧译本实验验证.

1 机器翻译评价方法

翻译评价以实现作品翻译的准确性和真实性为目的, 对机器翻译中固有或潜在的影响因素进行分析, 掌握译文发生畸变及其和原文之间相似程度, 从而制定出评价指标体系和评价模型. 本文研究一种基于机器学习的英译文评价方法, 评价整体流程如图1所示. 先对输入的译文样本进行数据预处理, 通过建立的评价指标体系得到文本变量特征; 由软件抽样把训练样本送至3种随机森林决策树中, 通过其中的分类器进行性能评估, 得到分类结果和评价错误率, 同时由建立的AHP-GRA模型计算评价结果.

图 1 评价整体流程图

2 翻译评价指标体系 2.1 评价指标体系的建立

提出的翻译评价指标体系是建立在文学作品英译本基础上, 进行定量和定性地评价作品翻译质量, 此种评价方法不仅要考虑常规文本翻译方法, 还要考虑文学作品的语言因素, 兼顾翻译技巧的一般性和文学特殊性. 陕西的乡土小说《带灯》[7]经改编之后的商洛花鼓现代剧剧本, 带有复杂交织的人物感情和差异性地域特色, 里面出现大量方言和充满影射、隐晦的口语, 以及原作的创造性地方特色语言, 包括人物对话、俚语和言外之意等. 本文以地方戏剧为例, 通过对《带灯》的实地调研和翻译实践, 分析了戏剧翻译的技法和特色, 同时开始研究人工翻译和机器翻译的联系和区别, 结合相关翻译评论和作者已有研究[8-10], 设计文学作品英译质量评价体系, 如表1所示, 其翻译质量影响包括一般翻译技法-静态变量特征群g[T]、作者定位-动态变量特征群h[T]、作品定位-辅助变量特征群p[T]和译者主体性-参考变量特征群s[T]四类一级指标, 以及他们所属的19个二级指标. 一般翻译技法分析了文学作品翻译的常规影响变量, 包括语法、句型、词汇、语言、相关性和优美性; 作者定位分析了设定人物的传统伦理、物质精神条件、人与自然社会的关系; 作品定位分析了作品需要表达的历史、社会、人性和当地自然因素; 译者主体性分析了译者对原文的喜爱与信任、理解和侵入、吸收和传播、偏差和补偿等.

2.2 文本特征度的提取

利用Python语言平台[11], 把机器和人工翻译的文学作品英译文输入到相关模型工具包, 过滤不完整或有冗余噪音的文本数据, 分析语法、语义和语境, 然后采取向量空间模型VSM方法(把文本内容处理为向量空间中的向量运算, 并以空间相似度表达语义相似度)[12], 用特征向量表征每一段文本, 同时包含特征项Tx和特征度, 特征度是影响系统评价结果的关键因素. 为了提高特征度获取的精度和速度, 先采用Stanford Parser (Stanford NLP提供的一种词性语法分析工具)[13]和NLTK(一种基于Python的自然语义处理库)[14]进行文本初过滤和提取处理(包括词性和句型标注、平均、局部最大值及最小值、词频加权、位置加权、句法分析等); 然后利用Doc2Vec方法(一种随机文本获得固定长度特征的无监督算法工具)[15,16]提取静态变量特征, 利用K-means(一种迭代求解的聚类分析算法)[17]提取动态变量特征, 利用LDA模型(一种基于三层贝叶斯概率的文档主题生成模型)[18]提取文本辅助和参考变量特征, 获得文本的编码和特征度.

表 1 文学作品英译质量影响变量特征库W[i]

3 文学作品英译评价模型 3.1 AHP-GRA模型

AHP-GRA模型在层次分析法的基础上融合了灰色关联度算法[19,20], 是一种无监督学习模型. 层次分析法将半定性、半定量问题转化为定量问题, 对专家主观打分的依赖性强, 而灰色关联度算法是根据序列几何形状的相似性来确定序列重要关系, 强调行为结果的客观性, AHP-GRA模型兼顾了二者优点. 通过层次分析法计算出所有指标的基础权重xi, 然后构建评价指标重要性判断矩阵V, 然后确定比较集列和最优指标集, 再对指标进行离散性的规范量化, 然后通过式(1)计算翻译评价指标的关联系数, 经过加权求和得到翻译译文的加权关联度. 式(1)中δ为翻译分辨系数, 本文取0.5; δj为翻译质量关联系数. 通过式(2)得到灰色关联系数矩阵R, 再结合前面的权重矩阵V, 由式(3)计算得到灰色关联度值Sj, T为文本特征.

${\delta _j}\left( i \right) = \frac{{\mathop {\min }\limits_j \mathop {\min }\limits_i \left| {{x_0}\left( i \right) - {x_j}\left( i \right) + \delta \mathop {\max }\limits_j \mathop {\max }\limits_i \left| {{x_0}\left( i \right) - {x_j}\left( i \right)} \right|} \right|}}{{\left| {{x_0}\left( i \right) - {x_j}\left( i \right)} \right| + \delta \mathop {\max }\limits_j \mathop {\max }\limits_i \left| {{x_0}\left( i \right) - {x_j}\left( i \right)} \right|}}$ (1)
${R_{ij}} = \left| \begin{gathered} {r_{10}}\cdots{r_{1j}} \\ \ddots \\ {r_{i0}}\cdots{r_{ij}} \\ \end{gathered} \right|$ (2)
${S_j}\left( i \right) = \frac{{\displaystyle\sum\limits_{i = 1}^T {{R_{ij}}{{\left( {{V_i}} \right)}^2}} }}{{\sqrt {\displaystyle\sum\limits_{i = 1}^T {{{\left( {{V_i}} \right)}^2}} } }}$ (3)

根据灰色关联度值对翻译准确度进行分级评价, 当评价指标关联度值为0.8~1时认为译文水平优秀, 为0.6~0.8时认为优良, 为0.4~0.6时认为一般, 为0~0.4时认为译文不准确.

3.2 随机森林算法

随机森林算法是一种基于集成学习Bagging算法建立的包含多个决策树的随机分类器, 准确度高、处理能力强, 适合于分类和变数评估等问题[21]. 原始Original-RF森林算法, 是一种基于Boosting算法的依赖串行生成序列化方法, 先初始训练得到基学习器, 然后调整样本训练下一个基训练器, 如此重复达到基训练器预期数目, 最后将所有基训练器加权结合得到分类结果; 随机抽样Random-RF森林算法是基于Bagging算法的改进版, 产生相对独立和差异化的基训练器集合, 通过Bootstrap自助采样, 如图2所示, 引入决策树结构, 从根节点开始将数据样本根据特征进行分类, 每个类别决策树通过Bootstrap抽样产生一个训练集, 重复随机抽取n次的N个样本数据. 决策树数量根据所选取的译文长短确定, 随后在生长过程中以指数最小原则选出符合评价指标体系中若干特征变量的最优集合, 通过构建的N个决策树形成随机森林. 将测试样本集输入到随机森林, 由最大投票数的分类结果作为翻译评价的输出结果.

图 2 随机森林算法示意图

3.3 AHP-RF评价模型

通过研究AHP-GRA模型和随机森林算法的优点, 建立融合算法的文学英译作品评价模型AHP-RF, 如图3所示, 由随机森林算法得到分类结果和分类错误率, 再由AHP-GRA模型得到译文翻译质量评价值. 作品英译文的训练样本集通过工具包预处理后, 得到文本特征数据T1T19, 通过Bootstrap再从对应训练集中抽取N个样本构成N个决策树, 不剪枝完全自然生长得到随机森林分类器, 通过多数投票表决得到分类结果和分类错误率; 最后将测试样本集输入到模型AHP-GRA中, 经过分层加权关联度计算, 得到译文翻译质量评价值.

图 3 AHP-RF作品翻译评价模型

4 实验结果分析

本文以地方戏剧《带灯》剧本为源语文本, 以作者的人工英译本和百度、谷歌、有道、搜狗4种在线机器英译文为评价样本集. 机器翻译方法和人工翻译类似, 是对小说解码和重新编码的过程, 并非机械化般无情, 而是中西方语言文化的一次融合和训练, 从英语译文中找到原作的词义、语义和语境. 在实验过程中, 树节点变量数目和决策树数目非常关键, 决定了系统的评价错误率. 例如图4示例所示, 当决策树节点变量数目为左边的5时, 译文语义符合原文, 模型对于文本的误判率均值不同, 需要选择误判率均值最低时的变量数目. 当错误率趋于稳定不变, 此时决策树数目设定不变.

图 4 相同词序列的不同句法结构示例

通过Bootstrap从表1中的4个一级特征和19个二级特征中抽取19个文本特征, 带入本文的AHP-RF模型, 得到19个分类结果, 如图5所示.

图 5 AHP-RF二阶特征项权重

图5中各个特征的权重值, 其中最重要的第一层次特征项是地方语言(0.123)和地方词汇(0.115), 接下来第二层次是人物物质条件(0.093)和人物精神条件(0.090), 第三层次是语法(0.085)和句型(0.081), 第四层次是人性因素(0.064)和译者喜爱和信任(0.054), 之后的特征项权重小于平均值, 说明以上变量特征是影响实验样本翻译水平的重要指标; 其中最低层次是人与自然的关系(0.016)、偏差和补偿(0.016)和自然定位因素(0.012), 说明此类指标在翻译评价体系中的影响最小. 然后用AHP-GRA算法把测试样本进行分级评价, 得到M组分段样本的19×M个灰色关联度, 再分级评价得到离散化的数据文本. 通过实验得到机器1~4的译文评价值分别为0.53, 0.57, 0.44和0.62, 人工英译本的评价值为0.83, 其中机器4的译文水平达到优良, 翻译质量高于其他3种, 而人工译文水平达到优秀, 翻译质量明显优于机器翻译.

通过原始Original-RF森林算法、随机抽样Random-RF森林算法和本文的AHP-RF算法, 分别计算输出分类结果性能指标错误率(error rate), 如图6图8所示的不同决策树数量下译本集的各种模型算法分类错误率对比, 随着决策树数目的增加, 分类错误率明显下降, 并且当决策树数目增长到200附近时, 分类错误率趋于稳定, 所以针对选取的实验样本, 确定200是其最优的分类决策树数量.

图 6 Original-RF算法的错误率结果

图 7 Random-RF算法的错误率结果

图 8 AHP-RF算法的错误率结果

图9所示, 在相同决策树数量200下各种译本集的3种随机森林算法分类错误率对比, 基于文本特征分层抽样的AHP-RF算法的分类错误率最低, Random-RF算法次之, Original-RF算法最高, 并且人工译文的错误率小于其他4种在线机器. 评价结果与实际翻译情况较为吻合, 说明文本提出的翻译评价方法是可行的.

图 9 不同随机森林算法的错误率对比结果

5 结论

通过对翻译评价方法的研究, 建立了文学作品翻译的评价指标体系和AHP-RF评价模型, 并通过地方戏剧《带灯》的5种译本作为实例, 进行了翻译质量评价与分析, 实验结果表明, 融合层次分析法、灰色关联法和随机森林算法的AHP-RF模型, 输入样本有效完成了变量特征分类, 为翻译作品的质量评价奠定了基础. 按照权重大小排位前八的依次是地方语言、地方词汇、人物物质条件、人物精神条件、语法、句型、人性因素和译者喜爱和信任, 处于最低层的依次是人与自然的关系、偏差和补偿和自然定位因素; 人工译本的评价结果高于其它4种机器译本, 分类错误率小于其它4种机器译本, 评价结果与实际翻译情况吻合; AHP-RF模型的分类效果优于Random-RF和Original-RF, 并且当决策树数目为200时, 该实验样本的分类错误率下降趋于平衡状态.

参考文献
[1]
吴彦文, 黄凯, 王馨悦, 等. 一种融合主题模型的短文本情感分类方法. 小型微型计算机系统, 2019, 40(10): 2082-2086. DOI:10.3969/j.issn.1000-1220.2019.10.010
[2]
姚建民, 周明, 赵铁军, 等. 基于句子相似度的机器翻译评价方法及其有效性分析. 计算机研究与发展, 2004, 41(7): 1258-1265.
[3]
李良友, 贡正仙, 周国栋. 机器翻译自动评价综述. 中文信息学报, 2014, 28(3): 81-91. DOI:10.3969/j.issn.1003-0077.2014.03.011
[4]
孙逸群, 周敏康. 机器翻译质量综合评价方法研究. 中国科技翻译, 2017, 30(2): 20-24.
[5]
马青松, 张金超, 刘群. 基于融合策略的机器翻译自动评价方法. 中文信息学报, 2018, 32(9): 11-19. DOI:10.3969/j.issn.1003-0077.2018.09.003
[6]
刘明童, 张玉洁, 徐金安, 等. 基于句法结构的神经网络复述识别模型. 北京大学学报(自然科学版), 2020, 56(1): 45-52.
[7]
贾平凹. 带灯. 北京: 人民文学出版社, 2013.
[8]
孙李丽. 地方戏剧中的詈语英译——以商洛花鼓戏《带灯》为例. 商洛学院学报, 2018, 32(3): 42-46, 55.
[9]
冯丽君, 张威. 贾平凹作品“走出去”之生态译介策略研究. 小说评论, 2019(6): 63-68.
[10]
张白桦, 杨茹. 乔治·斯坦纳翻译四步骤视域下韩译《高兴》的译者主体性. 长春大学学报, 2020, 30(1): 50-53.
[11]
吴立金, 简阳, 张凯, 等. 基于Python语言的GUI自动化测试脚本技术研究. 计算机测量与控制, 2015, 23(10): 3330-3332, 3337.
[12]
肖尚, 房至一, 董洪良, 等. 基于改进型VSM-HowNet融合相似度算法研究. 吉林大学学报(信息科学版), 2018, 36(6): 674-680.
[13]
刘建华, 张智雄. 基于Stanford Parser的实体间关系识别. 现代图书情报技术, 2009(5): 1-5.
[14]
李晨, 刘卫国. 基于NLTK的中文文本内容抽取方法. 计算机系统应用, 2019, 28(1): 275-278. DOI:10.15888/j.cnki.csa.006700
[15]
李鼎宇, 胡学钢. 面向短文本的跨领域情感分类算法. 小型微型计算机系统, 2018, 39(5): 1005-1009. DOI:10.3969/j.issn.1000-1220.2018.05.025
[16]
高森, 严曙, 崔超远, 等. 基于联合分类器过滤噪声的微博主题发现. 计算机系统应用, 2018, 27(1): 132-136. DOI:10.15888/j.cnki.csa.006141
[17]
刘海峰, 刘守生, 张学仁. 聚类模式下一种优化的K-means文本特征选择. 计算机科学, 2011, 38(1): 195-197. DOI:10.3969/j.issn.1002-137X.2011.01.045
[18]
吕超镇, 姬东鸿, 吴飞飞. 基于LDA特征扩展的短文本分类. 计算机工程与应用, 2015, 51(4): 123-127. DOI:10.3778/j.issn.1002-8331.1403-0448
[19]
杜思义, 聂鹏辉. 基于改进层次分析法的地基基础优化选型. 河南科学, 2019, 37(6): 968-974. DOI:10.3969/j.issn.1004-3918.2019.06.017
[20]
郭正红, 马辛华, 兰安怡. 基于层次分析法权重和灰色服务器负载预测的云计算on-line迁移策略. 计算机测量与控制, 2015, 23(3): 1002-1004, 1007. DOI:10.3969/j.issn.1671-4598.2015.03.095
[21]
王梓杰, 周新志, 宁芊. 基于PCA和随机森林的故障趋势预测方法研究. 计算机测量与控制, 2018, 26(2): 21-23, 26.