﻿ 基于餐饮业网络评论的消费者情感极性分析
 计算机系统应用  2018, Vol. 27 Issue (8): 42-48 PDF

Analysis of Consumer Sentiment Polarity Based on Chinese Online Review of Catering Industry
YANG Bo-Wen
Department of Statistics, School of Economics, Nanjing University of Finances and Economics, Nanjing 210023, China
Abstract: First, to predict consumer sentiment polarity based on Chinese online review of catering industry, this study establishes Lasso-Logistic and Lasso-PCA models. By comparison, Lasso-PCA model is more accurate by integrating more information of variables. However, Lasso-PCA model has weaker explanatory power especially in the scenario of high dimensional data. Second, using the variable selection results of Lasso-Logistic model, we find that specialties, service attitude, and the external environment, as well as " a fly in the ointment” are the significant factors affecting the consumer's emotional polarity directly.
Key words: text mining     sentiment polarity     Lasso algorithm     Logistic regression     sparse principal component regression

1 引言 1.1 研究背景

1.2 研究现状

1.3 研究思路

2 数据来源与处理 2.1 数据来源

2.2 数据处理

TF-IDF算法是提取文本关键词常用的统计方法, 用以评估一字词对一个文本的重要程度. 其基本思想是如果一个词比较少见, 但是它在这个文档中出现多次, 那么它很可能就反映了这个文档的某方面特性, 可以作为该文档的关键词 . 该算法分为词频(Term Frequency, TF)和逆向文本频率(Inverse Document Frequency, IDF)两部分. TF即一个词在目标文本中出现的频率, 见式(1). IDF是对该词代表的信息量的衡量, IDF值的计算需要一个词料库, 由词料库中总文件数除以包含该词的文档数, 再将商取对数得到, 见式(2). TF - IDF值即TF与IDF的乘积, 见式(3). 这里选用的是R软件jiebaR包自带的词料库.

 $tf\left( {t,d} \right) = \frac{{{n_{t,d}}}}{{\sum\nolimits_k {{n_{k,d}}} }}$ (1)
 $idf\left( {t,D} \right) = \log \frac{N}{{\left| {\left\{ {d \in D:\;t \in d} \right\} + 1} \right|}}$ (2)
 $TF - IDF = tf\left( {t,d} \right) \times idf\left( {t,D} \right)$ (3)

3 消费者情感极性的预测模型 3.1 Lasso-Logistic预测模型

Lasso算法加入的惩罚项为L1范数, 即参数向量中各个元素绝对值之和, 由两部分构成, 一部分为Logistic回归的负对数似然函数, 另一部分为L1-正则项, Lasso的目的是求得使f(β)最小的解, 即式(4)所示.

 $\hat \beta = \arg {\min _\beta }\left\{ {\sum\limits_{i = 1}^n {\log \left( {1 + {{\rm{e}}^{ - {y_i}x_i^{\rm{T}}\beta }}} \right)} + \lambda \sum\limits_j^p {\left| {{\beta _j}} \right|} } \right\}$ (4)

 图 1 Lasso-Logistic预测结果的ROC曲线

 $TPR = \frac{{TP}}{{TP + FN}}$ (5)
 $FPR = \frac{{FP}}{{FP + TN}}$ (6)

3.2 Lasso-PCA预测模型

 ${\bf{X}} = {\bf{UD}}{{\bf{V}}^{\rm{T}}},{{\bf{U}}^{\rm{T}}}{\bf{U}} = {{\bf{I}}_{{n}}},{{\bf{V}}^{\rm{T}}}{\bf{V}} = {{\bf{I}}_{{p}}},{d_1} \ge {d_2} \ge \cdots \ge {d_p} > 0$ (7)
 $\begin{array}{l}{\rm{maximiz}}{e_{{u_{k,}}{v_k}}}u_k^{\rm{T}}{\bf{X}}{v_k}\\{\rm{s.t.}}\;\;{\left\| {{v_k}} \right\|_1} \le c,\left\| {{u_k}} \right\|_2^2 \le 1,\left\| {{v_k}} \right\|_2^2 \le 1,{u_k} \bot {u_1}, \cdots ,{u_{k - 1}}\end{array}$ (8)

R软件提供的PMA软件包提供了很好的分析工具. 为了使模型具有可比性, 这里的主成分分析沿用上文中Lasso-Logistic预测模型抽取的测试集和训练集, 选取与Lasso-Logistic预测模型的变量相同数目的主成分, 将Lasso-PCA得到的稀疏主成分作为解释变量, 运用Logistic回归对消费者的情感极性进行预测, 模型预测效果如表4图2所示.

 图 2 Lasso-PCA预测结果的ROC曲线

3.3 两种预测模型的比较

 图 3 两种预测模型预测效果比较

4 消费者情感极性的影响因素分析

Lasso-PCA模型虽有较好的预测效果, 但模型的解释能力欠佳, 因此, 考虑到Lasso-Logistic模型较强的解释性, 本文借助Lasso-Logistic预测模型变量选择的结果进一步对影响消费者情感极性的影响因素进行分析. 由于Lasso-Logistic模型中由Lasso算法得到的稀疏解具有一定的随机性, 本文进行了两次回归以减小随机性对结果的影响. 这里主要关注回归结果中显著的变量, 结果如表5所示.

(1) 从两次回归结果中可以看出, “不错”、“喜欢”、“好吃”以及程度副词“非常”和“最好”的系数在两个回归中的系数都显著为正. 相比之下, “没有”、“不会”和“一次”这类含有负面情绪的词汇, 回归系数显著为负. 这一结果也是符合常理的, 好的评价对应高的评分; 而对于没有达到满意的消费行为, 消费者往往对不满意之处吐槽, 评分自然也低.

(2) “中规中矩”、“还算”和第一个回归中“还行”的系数显著为负, 说明评论中出现“中规中矩”、“还算”这两个词汇的消费者对消费行为更加倾向于持负面的态度, 服务中的美中不足之处很容易引起消费者的消极情绪. 同时, 这一结论对商家也具有一定的警醒作用, 商家应该对此类评论加以重视, 根据评论内容分析对应消费者的消费心理, 扑捉到自身服务的欠缺之处, 如果能够弥补美中不足之处可能就会带来意想不到的利润.

(3) “必点”的系数在两个回归中的结果都显著为正, 体现出了消费者对某个菜品的青睐; “地道”和“川菜馆”在两个回归结果中显著为正, “辣味”也在回归一中显著为正, 体现出了餐厅的独特之处. 这些都是最能体现出一个餐厅特色的词汇, 系数显著为正的回归结果说明餐厅特色菜是影响消费者评价的一个关键因素, 说明餐饮业的商家在经营过程中要有能力打造出自己的特色, 并且注重招牌菜的推广, 这在很大程度上有利于餐厅的经营, 从而提升自身的市场竞争力.

(4) “态度”、“半天”、“电梯”以及第二个回归中“昏暗”的系数显著为负, 说明服务态度和环境的好坏直接影响了消费者的心理, 强调了餐厅服务态度和外部环境特征的重要性. 现代人的消费观念不断转换, 对服务的要求也随之提高, 更是体现在方方面面. 好的服务态度和就餐环境给消费者更加舒适、放松的感觉, 直接影响消费者的情绪, 对消费者的评分起到重要作用.

(5) “下次”、“值得”和“每次”的回归系数显著为正, 体现出了顾客再次消费的潜质, 说明这类消费者对消费行为的整体评价较高, 再次消费的可能性很大. 商家为提高顾客忠诚度、改善经营状况, 要时常关注这类消费者的消费动向, 注意维护此类消费者的顾客忠诚度.

5 结论及启示

 [1] 李胜宇, 高俊波, 许莉莉. 面向酒店评论的情感分析模型. 计算机系统应用, 2017, 26(1): 227-231. DOI:10.15888/j.cnki.csa.005511 [2] Clavel C, Callejas Z. Sentiment analysis: From opinion mining to human-agent interaction. IEEE Transactions on Affective Computing, 2016, 7(1): 74-93. DOI:10.1109/TAFFC.2015.2444846 [3] Zheng LJ, Wang HW. Sentimental polarity and strength of online cellphone reviews based on sentiment ontology. Journal of Industrial Engineering and Engineering Management, 2017, 31(2): 47-54. [4] 曾津, 周建军. 高维数据变量选择方法综述. 数理统计与管理, 2017, 36(4): 678-692. [5] Weiser M. The computer for the 21st century. IEEE Pervasive Computing, 2002, 1(1): 19-25. DOI:10.1109/MPRV.2002.993141 [6] Aizawa A. An information-theoretic perspective of TF-IDF measures. Information Processing & Management, 2003, 39(1): 45-65. [7] Turney PD. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Philadelphia, PA, USA. 2002. 417–424. [8] Hu M, Liu B. Mining and summarizing customer reviews. Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, WA, USA. 2004. 168–177. [9] 覃世安, 李法运. 文本分类中TF-IDF方法的改进研究. 现代图书情报技术, 2013(10): 27-30. DOI:10.11925/infotech.1003-3513.2013.10.05 [10] Mascolo C, Capra L, Zachariadis S, et al. XMIDDLE: A data-sharing middleware for mobile computing. Wireless Personal Communications, 2002, 21(1): 77-103. DOI:10.1023/A:1015584805733 [11] Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47. DOI:10.1145/505282.505283 [12] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques. Proceedings of EMNLP. Philadelphia, PA, USA. 2002. 79–86. [13] 王健, 张俊妮. 统计模型在中文文本挖掘中的应用. 数理统计与管理, 2017, 36(4): 609-619. [14] Geladi P, Kowalski BR. Partial least-squares regression: A tutorial. Analytica Chimica Acta, 1986, 185: 1-17. DOI:10.1016/0003-2670(86)80028-9 [15] 曹芳, 朱永忠. 基于多重共线性的Lasso方法. 江南大学学报(自然科学版), 2012, 11(1): 87-90. [16] 方匡南, 章贵军, 张惠颖. 基于Lasso-Logistic模型的个人信用风险预警方法. 数量经济技术经济研究, 2014, 31(2): 125-136. [17] 倪新洁, 梁彪, 倪佩可. 结合LASSO算法与logistic回归模型的P2P信贷审批结果研究. 统计与管理, 2015(8): 44-47. [18] 吴方照, 王丙坤, 黄永峰. 基于文本和社交语境的微博数据情感分类. 清华大学学报(自然科学版), 2014, 54(10): 1373-1376, 1383. [19] 郑文斌. 基于正则化线性统计模型的文本分类研究[博士学位论文]. 杭州: 浙江大学, 2012. [20] Zou H, Hastie T, Tibshirani R. Sparse principal component analysis. Journal of Computational and Graphical Statistics, 2006, 15(2): 265-286. DOI:10.1198/106186006X113430 [21] Jolliffe IT. A note on the use of principal components in regression. Applied Statistics, 1982, 31(3): 300-303. DOI:10.2307/2348005 [22] Witten DM, Tibshirani R, Hastie T. A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis. Biostatistics, 2009, 10(3): 515-534. DOI:10.1093/biostatistics/kxp008 [23] 胡局新, 张功杰. 基于K折交叉验证的选择性集成分类算法. 科技通报, 2013, 29(12): 115-117. DOI:10.3969/j.issn.1001-7119.2013.12.039 [24] 王运生, 谢丙炎, 万方浩, 等. ROC曲线分析在评价入侵物种分布模型中的应用. 生物多样性, 2007, 15(4): 365-372. [25] 邹洪侠, 秦锋, 程泽凯, 等. 二类分类器的ROC曲线生成算法. 计算机技术与发展, 2009, 19(6): 109-112.