随着互联网的发展, 用户倾向于在购物、旅游、用餐之前参考线上评论. 之后, 他们也会发表评论来表达自身意见. 线上评论越来越具有价值. 评论对用户决策的重要导向作用催生了虚假评论. 虚假评论, 指用户由于利益、个人偏见等因素发布的不符合产品真实特性的评论. 这些虚假评论语言上模仿真实评论, 消费者很难识别出来. 国内外学者综合运用自然语言处理技术来研究虚假评论检测问题. 从特征工程的角度分析, 虚假评论检测方法可以分为三类: 基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习的方法. 主要描述了检测的一般流程, 归纳了三类研究方法常用的特征, 比较了方法的优缺点, 并且介绍了研究常用的数据集. 最后探讨了未来研究方向.
With the development of the Internet, users tend to refer to online reviews before shopping, travelling, and dining. After that, they write reviews to express their own opinions. Online reviews are increasingly of great value. The significant guiding role of reviews playing in consumers’ decisions has given rise to false comments, which we call review spam. The review spam refers to the comments written by users that do not meet the true characteristics of products, due to factors such as commercial profits and personal bias. Spammers imitate the writing style of true reviewers so that customers can hardly discriminate the review spam. Scholars at home and abroad use natural language processing techniques to detect review spam. From the perspective of feature engineering, review spam detection methods are divided into three types: the linguistic and behavior based, the graph based, and the representation learning based. This survey mainly describes the general process of review spam detection, summarizes feature designing of the models, and makes a comparison among three types of methods. Furthermore, the most commonly used datasets are introduced. Finally, it explores the research directions in the future.
互联网的迅速发展使线上平台在人们购物、旅游、用餐、住宿等各个方面占据了重要的作用. 这些线上平台拥有大量评论. 评论信息作为桥梁联结消费者和产品, 不仅可以影响消费者的决策, 还能作为反馈来促进商家改善产品细节. 然而, 评论者个体因为利益关系、品牌偏见等原因发布了许多虚假评论. 他们甚至会协同合作发布虚假评论, 组成虚假评论群组. 据调查显示[
2008年, Jindal等[
(1) 不真实评论. 评论制造者为了提高某产品的销量, 不管产品真实的特性大肆赞美该产品, 或者为了压制某产品的销量诋毁该产品.
(2) 只关注品牌的评论. 评论者因为产品的品牌、厂商和销售商对产品带有偏见.
(3) 无关评论. 一般分为两类: 广告和其他与评论无关的文本.
由于评论内容多为短文本, 虚假评论比垃圾网页和垃圾邮件更难识别[
虚假评论检测难点在于找出有效的特征来更好地区分虚假评论与真实评论. 最早的时候, 研究者从评论内容提取语言特征(例如, 词袋特征)用于检测. 然而, 有经验的评论者编写虚假评论模仿真实评论, 所以利用评论内容识别虚假评论, 准确性不高. 于是, 研究者结合行为异常信息来提高检测准确性. 虚假评论检测另一难点在于缺少标准标注数据集评估算法性能. 研究者引入图结构, 利用评论者、评论、产品之间的关系特征, 把检测任务转为排序或者联合分类问题, 已知节点的信息通过连接的边传递到未知节点. 此类方法适用于标注数据集少的情况. da方法检测的效率不高. 于是, 研究者利用表示学习方法让模型学习表示评论, 减少人为设计特征的繁琐性.
本文第1节从检测的一般流程、特征分类、检测方法三部分介绍虚假评论检测技术, 重点比较了各类方法的优缺点. 第2节列举了研究者们使用的合成数据集和真实世界的数据集. 第3节对全文进行总结, 同时探索了未来的研究方向.
虚假评论检测的一般流程分为: 数据收集、数据预处理、特征设计、模型设计、模型评估. 数据收集指自己爬取网页数据或者下载他人整理的语料库. 数据预处理对后续的虚假评论检测性能有着很大的影响[
研究中常用的特征可分为四类[
基于语言学特征的方法属于早期的研究方法. 词袋特征(unigram/bigram/trigram)是虚假评论识别最为常用的语言特征[
Ott等[
Li等[
由于人工标注样例误差大, 任亚峰等[
常用的评论、评论者的语言特征和行为特征
特征分类 | 特征名词 | 特征解释 |
评论者的语言特征 | RL (Review Length) | 平均评论长度. |
MCS (Max Content Similarity) | 最大内容相似度. 比较两两评论的cosine相似度, 取最大值. | |
评论的语言特征 | N-gram (unigram/bigram/trigram) | 词袋特征. 对于一个文本来说, 只关注已知的词汇出现与否, 忽略其词序和词的结构. 文本中每个词的出现都是独立的. 通过计算文档中单词或词组出现的次数以及出现的频率来表示. |
POS (Part-Of-Speech) | 词性分布特征. 对句子进行分词、词性标注以及统计不同词性的词出现的频率. | |
Deep syntax | 深层句法特征. 可以通过斯坦福句法分析器(Stanford Parser)分析得到. | |
PP1 (ratio of 1st Person Pronouns) | 评论中第一人称代词(I, my, etc.)占比. | |
RES (Ratio of Exclamation in Sentence) | 评论语句中感叹号的占比. | |
评论者的行为特征 | MNR (Max Number of Reviews) | 最大日发布评论数目. |
PR/NR (Ratio of Positive/Negtive Reviews) | 评论者发布的积极/消极评论占他所有评论的比率. | |
RD (Rating Deviation) | 评级偏差. 评论者给的评级与其他评论者的评级是相近的. 若评论者对产品的评级与该产品的评级均值相差甚远, 则反映了该用户的异常评论行为. | |
ERD (Entropy of rating distribution) | 同一用户评论的评级分布熵. | |
ETG (Entropy of Temporal Gaps) | 同一用户连续两条评论之间的时间差
|
|
BRR (Burst Review Ratio) | 突发性评论比例. 评论者短时间内发布的评论数占所有评论数的比例, 一般用于虚假评论者检测和虚假评论群组检测. | |
RAVP (Ratio of Amazon Verified Purchase) | 亚马逊确认购买比例. 评论的发布者购买了亚马逊的产品后, 他的评论被打上“亚马逊确认购买”的
|
|
评论的行为特征 | EXT (EXTremity of ratings) | 评级的极端情况. |
ETF (Early Time Frame) | 早期时间窗. 为增加产品关注度影响产品后续销售, 产品所有评论中最早发布的评论极有可能是虚假评论. | |
ISR (Is Singleton Review) | 如果用户仅仅发布了一条评论, 那么该评论是虚假评论的可能性非常大. |
赵军等[
基于语言特征的方法应用于点评网站中的评论数据时检测效果较差. Mukherjee等[
以往的研究多次利用评论爆发性[
Yang等[
将行为特征与语言特征结合可以改善虚假评论检测效果, 然而前提是需要足够的数据抽取行为信息. Wang等[
基于图结构的方法利用评论、评论者、产品等对象之间的关系特征, 将虚假评论者和虚假评论的检测看作联合分类或者排序问题[
为了研究虚假评论者的检测问题, Wang等[
评论者-评论-商店关系图
他们还提出一个有效的迭代计算模型, 该模型采用了节点加强的方法对评论者的可信度、商店的可靠性、评论的真实性进行计算. 研究者认为评论的真实性取决于以下两点: 1) 商店的可靠性. 2) 一定时间窗内该评论与其他评论的一致性. 商店的可靠性与评论者的可信度正相关. 评论者的可信度与评论的真实性正相关. 经过多次迭代后, 各节点的信誉度将逐渐收敛, 系统也会趋于平衡. 最终, 得分较低的评论者归为虚假评论者候选人. 评论者可信度
其中,
余传明等[
邵珠峰等[
Akoglu等[
Saeedreza等[
以上两类研究方法致力于设计有效的特征来区分虚假评论与真实评论, 特征设计依赖于专家的先验知识. 如果算法可以自动学习表示评论, 就可以减少人为设计特征的时间, 降低引入的噪声.
Wang等[
Wang等[
张李义等[
Dong等[
基于语言学特征和行为特征的方法使用的模型一般较为简单, 检测的效果相对较好, 但是特征设计过程耗时且具有挑战性. 不同数据集的数据稀疏程度、涉及的领域、语言的表述、评论者的关注面不同. 所以, 针对不同的数据集, 需选取不同的特征进行实验. 另外, 特征设计一般依靠专家的经验, 而专家们的经验也不完全可靠.
基于图结构的方法利用了评论、评论者、产品和商店之间的网络关系, 使用传播算法、迭代算法等计算节点的分数. 这类方法适用于标注数据稀少或者无标注数据的情况. 在虚假评论检测问题上, 优点是可以不依赖于人工标注数据, 扩展性好. 缺点是计算信誉度时利用的规则往往比较单一, 新加入的节点影响已有节点的分数, 所以需要重新迭代计算已有节点的分数. 该类方法适用的网络规模不宜过大, 而且检测效果还有待提升.
以上两类方法用到的特征通过统计得到, 而表示学习方法能自动学习表示评论, 既能提高实验效率又能提升检测效果. 虚假评论者为了躲避网站算法检测, 可能会增加评论的细节信息, 或者利用账号积攒信用后发布虚假评论. 可见虚假评论的语言特征与行为特征是动态变化的, 不可预知的. 表示学习方法不需要依赖经验设计特征, 因此鲁棒性好. 这类方法作为最新的研究趋势, 检测效果优于传统的方法, 然而这方面的研究较少而且不够深入.
三类方法的比较具体见
三类方法的特点比较
方法 | 经典模型 | 适用范围 | 复杂度 | 优点 | 缺点 |
基于语言特征与
|
支持向量机、逻辑
|
标注数据, 数据规模小. 分类
|
低 | 利用现有的分类器
|
构建特征工程耗时
|
基于图结构
|
HIN异构信息网络、LBP信息循环传递、
|
无标注数据/标注数据少,
|
较高 | 拟合真实世界数据分布
|
规则单一,
|
基于表示学习
|
CNN卷积神经网络、
|
标注数据少, 整体数据规模大, 半监督性 | 高 | 自动学习表示评论, 减少构建特征工程的时间, 鲁棒性好. | 参数设定困难, 模型容易过拟合, 解释性差 |
研究者们不但致力于选择有效的特征表示评论/评论者, 寻找合适的模型提高检测效果, 而且探索研究多领域数据. 但是, 虚假评论检测研究主要问题是: 缺少标准标注数据集来评估算法性能. 目前, 研究者们主要利用众包平台构造的评论数据或者真实世界点评网站的评论数据.
众包平台通过向员工分配需求任务, 依靠人类的智慧来完成计算机还不能完成的任务. 例如, 从许多照片中挑出最棒的商店前台的照片, 编写产品描述性评论, 或者区分出音乐CD封面上的歌手等[
Ott等[
众包平台的员工并未刻意模仿真实评论的表述, 构造出的虚假评论和现实世界中的评论存在着较大差异.
点评网站一般有自己的虚假评论过滤算法, 这些过滤算法是商业机密, 不向外部开放.
点评网站评论数据集
数据集 | 语言 | 包含领域 | 获取途径 | 数据量 | 采集时间 | 数据来源 | 标注方式 | |
Dianping[ |
中文 | 上海500家餐厅 | 未公开 | 3523条虚假评论,
|
2011.11.1
|
Dianping.com | 网站过滤算法 | |
Yelp[ |
YelpChi | 英文 | 芝加哥酒店餐厅 | 未公开 | 酒店: 802条虚假评论, 4872条未过滤评论.
|
2013 | Yelp.com | 网站过滤算法 |
YelpNYC | 纽约餐厅 | 未公开 | 923家餐厅359 052条评论 | 2015 | ||||
YelpZip | 纽约餐厅 | 未公开 | 5044家餐厅608 598条评论 | 2015 | ||||
TripAdivisor[ |
英文 | 宾馆 | http://mlg.ucd.ie/datasets/trip | 3万条评论 | 2010 | TripAdivisor.com | 未标注 | |
Amazon[ |
英文 | 书籍、音乐、DVD/VHS等产品 | http://liu.cs.uic.edu/download/data/ | 5838 032条评论, 1195 133个产品 | 2006.6 | Amazon.com | 未标注 | |
Resellerrating[ |
英文 | 线上商店 | 未公开 | 408470条评论 | 2010.10.6 | resellerratings.com | 未标注 | |
SWM[ |
英文 | 娱乐类别下的评论(如游戏、电影、
|
未公开 | 1132 373条评论 | 2012.6 | 匿名的线上商店数据库 | 未标注 |
近年来, 线上消费者在做出决策前都会参考商业网站的产品评论. 真实可靠的评论既能改善消费者体验, 也能促进商家良性竞争. 本文主要概括了研究常用的四类特征, 总结了国内外研究者提出的虚假评论检测方法, 并从特征工程的角度对比了基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习方法的优缺点, 最后列举了研究中使用的数据集. 从现阶段的检测技术来看, 虚假评论检测仍有很大的探索空间, 具体归纳为以下4点:
(1) 针对来自不同领域的数据集, 研究者们需要选取不同的特征来构建分类器, 重复特征选择这一工作. 这说明未来需要探索跨领域实验来优化特征选择的过程, 减少重复性的人工操作. 此外, 最优的特征选择也是未来的探索方向.
(2) 真实世界中虚假评论数据与真实评论数据不平衡, 不平衡的数据训练出的模型效果较差. 以往的研究通常利用采样达到数据平衡. 然而, 训练的模型在测试自然分布的数据集时检测效果下降. 未来可以探索更多适用于真实世界中不平衡数据的技术.
(3) 公开的真实评论网站的数据集较少, 以往的研究大多使用了人工构造的数据集. 但研究证实, 经人工构造的数据集训练出的分类器在对真实世界的评论数据进行分类时效果不理想[
(4) 虚假评论的冷启动问题. Wang等[
Luca M, Zervas G. Fake it till you make it: Reputation, competition, and Yelp review fraud. Management Science, 2016, 62(12): 3412–3427.
Etaiwi W, Naymat G. The impact of applying different preprocessing steps on review spam detection. Procedia Computer Science, 2017, 113: 273–279.
任亚峰, 姬东鸿, 张红斌, 等. 基于PU学习算法的虚假评论识别研究. 计算机研究与发展, 2015, 52(3): 639–648.
赵军, 王红. 融合情感极性和逻辑回归的虚假评论检测方法. 智能系统学报, 2016, 11(3): 336–342.
Dewang RK, Singh AK. State-of-art approaches for review spammer detection: A survey. Journal of Intelligent Information Systems, 2018, 50(2): 231–264.
余传明, 冯博琳, 左宇恒, 等. 基于个人-群体-商户关系模型的虚假评论识别研究. 北京大学学报(自然科学版), 2017, 53(2): 262–272.
邵珠峰, 姬东鸿. 基于情感特征和用户关系的虚假评论者的识别. 计算机应用与软件, 2016, 33(5): 158–161, 172.
Shehnepoor S, Salehi M, Farahbakhsh R, et al. NetSpam: A network-based spam detection framework for reviews in online social media. IEEE Transactions on Information Forensics and Security, 2017, 12(7): 1585–1595.
张李义, 刘畅. 结合深度置信网络和模糊集的虚假交易识别研究. 现代图书情报技术, 2016, 32(1): 32–39.