﻿ 基于灰色关联度和K-Means++的电子商务客户价值分类
 计算机系统应用  2001, Vol. 29 Issue (9): 249-254 PDF

Classification of E-Commerce Customer Value Based on Grey Correlation Degree and K-Means++
JI Hui-Jie, NI Feng, LIU Jiang, ZHAO Yi
Business School, University of Shanghai for Science & Technology, Shanghai 200093, China
Foundation item: National Natural Science Foundation of China (11701370)
Abstract: The combine model of the RFM model and K-means is used to classify customer value and AHP method is mostly used to determine the weight of indicators, without considering the relationship between the indicators of RFM model. In this study, firstly, we select the average time interval, the customer purchase frequency in a period of time, average transaction money of each order, and customer active time to structure RFMT model in order to measure the customer value. Then, determine the index weight by using grey correlation degree. Finally, aiming at the shortcomings of K-means, K-means ++ and elbow law are used to carry out cluster analysis of RFMT model. This model can make a more detailed division of customer base. It can help e-commerce enterprises to identify the customers that need to be focused on. Meanwhile, the enterprise customers can be divided into customer groups with high value to low value, and put forward specific marketing suggestions for different customer groups.
Key words: customer value     RFM model     grey correlation degree     K-means++     elbow law

RFM模型可用来衡量客户利润贡献度和忠诚度, 广泛应用于零售及其它行业. Chen等使用RFM模型对在线零售商的客户进行分析, 通过聚类算法和决策树识别每个客户群的主要特征[1]. 徐翔斌等提出改进的RFP模型, 用利润指标替换金额指标对电子商务网站客户进行细分, 但是对指标设定的权重是随机的, 缺乏一定的客观性[2]. 徐文瑞用层次分析法(AHP)确定RFM模型中的各指标权重[3]. 包志强等通过改进RFM模型对百度外卖客户进行价值分析, 用主成分分析确定各指标权重[4]. 熊兰等通过对零售企业的产品类别进行区分, 将客户的价值按产品类别区分, 创建多层级的客户价值模型[5]. Zhang细化了RFM指标, 利用K-means聚类算法为体育文具产业进行客户数据挖掘给予指导[6]. 综合各学者研究来看, RFM模型仍是根据客户消费行为衡量客户价值的有效方法, 本文借鉴以往学者对RFM模型各指标的改进并结合本文研究构建RFMT模型. 其次, 以往文献关于权重的确定大多采用层次分析法(AHP), 有些学者会采用客观法例如主成分分析和熵权法, 然而皆未考虑RFM模型各指标之间存在关联的问题. 本文基于灰色系统理论利用灰色关联度为改进的RFMT模型指标确定权重, 综合整个因素指标空间的影响, 分析各指标对衡量客户价值的影响程度大小. 最后, 由于K-means算法存在对初始聚类中心以及聚类数敏感等缺点, 本文运用K-means++和肘部法则对其进行改进, 进而对在线零售商的客户的购买行为进行分析, 并将客户分为价值由高到低的客户群.

1 模型建立

1.1 改进的RFM模型

RFM模型的优点在于收集数据容易, 3个指标能够清楚地解释顾客的行为. RFM模型能够清楚表征客户当前价值, 然而在如今市场竞争激烈的情况下, 客户的潜在价值即未来能够带给企业的价值更加重要. 王客富认为客户的保持时间与忠诚度有密切联系[7]. 客户的忠诚度则是客户潜在价值的体现, 因此扩展RFM模型对客户忠诚度进行度量. 传统的RFM模型指标不够全面, 并且指标的权重确定大多以主观判断为主, 影响结果的客观性. 为了更准确地对在线零售商的客户进行当前和潜在价值分析, 提出改进的RFM模型, 选取客户的平均购买时间间隔(R)、客户在活跃时间内的购买频率(F)、平均每笔订单交易金额(M)和客户在一年内的活跃时间(T) 4个指标构建RFMT模型. 为了抵消购买频率与购买金额之间的多重共线性关系, 用平均订单交易金额代替总购买金额; 客户的购买频率描绘客户在一年内的订单数量, 订单数量越多, 客户的购买金额越大, 为企业贡献的价值越大, RFM的3个指标衡量了客户的当前价值. FT指标是对客户潜在价值的衡量, 客户的活跃时间能够反映客户对企业的忠诚度, 活跃时间越长, 购买频率越大, 说明客户的满意度越高, 越容易发生购买行为. 所构造的RFMT模型各指标的计算公式如下:

 $R = \frac{{{T_L} - {T_F}}}{{BT}}\;\;\;$ (1)
 $M = \frac{{{M_T}}}{F}$ (2)
 $T = {T_L} - {T_F}$ (3)

1.2 基于灰色关联度确定指标权重

RFM模型中各指标对客户价值的影响程度是不同的, 通过对RFM模型中的指标赋予不同的权重能够帮助企业更准确地分析客户行为, 采取科学的管理措施. 人们所面临的实际决策问题的各因素指标之间的关系表面上看不明确, 实际上却并不是独立的, 常存在相互联系, 这是灰色的关联性在起作用[8]. 灰色关联分析的基本思想是通过确定参考数据列和比较数据列的几何形状相似程度来判断其联系是否密切, 通常可以运用此方法来分析各个因素对于结果的影响程度. 采用灰色关联法确定指标权重的优点在于其可以挖掘出数据本身具有的关联性, 从而避免了如层次分析法等所包含的主观因素的影响. 本文在衡量电子商务客户价值时所采用的实验数据是有限的, 根据以往文献对客户价值的衡量在有限的信息下提炼出了RFMT的4个指标. RFMT这4个指标是根据客户购买时间、客户购买金额以及客户的订单量4个指标计算得到, 由计算公式可得各个指标相互之间存在关联, RFMT模型及指标关联性如图1所示. 各指标在时间和购买行为上存在一定的关联性, 因此可以将客户价值看作是一个灰色系统, 通过灰色关联度寻求RFMT各指标对客户价值的影响程度. 通过灰色关联度[9,10]确定各指标权重, 指标的权重值即代表了对客户价值的影响程度.

 图 1 RFMT客户价值分类模型

 $\left( {X'_1,X'_2, \cdots, X'_n} \right) = \left( {\begin{array}{*{20}{c}} {X'_1\left( 1 \right)}& \cdots &{X'_1\left( 4 \right)} \\ \vdots & \ddots & \vdots \\ {X'_n\left( 1 \right)}& \cdots &{X'_n\left( 4 \right)} \end{array}} \right)$ (4)

 $X'_0 = \left( {X'_0\left( 1 \right),X'_0\left( 2 \right),X'_0\left( 3 \right),X'_0\left( 4 \right)} \right)$ (5)

 ${x_i}\left( k \right) = \frac{{x'_i\left( k \right)}}{{\dfrac{1}{m}\displaystyle \sum\nolimits_{k = 1}^m {x'_i\left( k \right)} }}\;$ (6)
 $\left( {{X_0},{X_1}, \cdots, {X_n}} \right) = \left( {\begin{array}{*{20}{c}} {{X_0}\left( 1 \right)}& \cdots &{{X_0}\left( 4 \right)} \\ \vdots & \ddots & \vdots \\ {{X_n}\left( 1 \right)}& \cdots &{{X_n}\left( 4 \right)} \end{array}} \right)$ (7)

 ${\xi _{ik}} = \frac{{\mathop {\min }\limits_i \mathop {\min }\limits_k \left| {{X_0}\left( k \right) - {X_i}\left( k \right)} \right| + \rho \cdot \mathop {\max }\limits_i \mathop {\max }\limits_k \left| {{X_0}\left( k \right) - {X_i}\left( k \right)} \right|}}{{\left| {{X_0}\left( k \right) - {X_i}\left( k \right)} \right| + \rho \cdot \mathop {\max }\limits_i \mathop {\max }\limits_k \left| {{X_0}\left( k \right) - {X_i}\left( k \right)} \right|}}$ (8)

 ${\text{因此得到关联系数矩阵}}:\; \left( {\begin{array}{*{20}{c}} {{\xi _{11}}}& \cdots &{{\xi _{14}}} \\ \vdots & \ddots & \vdots \\ {{\xi _{n1}}}& \cdots &{{\xi _{n4}}} \end{array}} \right)$ (9)

 ${\bar W_k} = \frac{1}{n}\sum\nolimits_{i = 1}^n {{\xi _{ik}},k = 1,2,3,4}$ (10)

 ${W_k} = {{{{\bar W}_k}} / {\sum\nolimits_{k = 1}^4 {{{\bar W}_k}} }}$ (11)
2 改进K-means聚类

K-means算法是数据挖掘最经典的聚类算法, 也是客户细分经常使用的方法. 算法的基本思想是根据样本之间的距离分类. 先指定所需分类类别K类, 随机生成K个聚类中心, 将各个样本分到离聚类中心最近的一类, 通过不断迭代更新聚类中心, 达到最优分类效果. 算法采用误差平方和准则函数SSE作为聚类准则函数. K-means算法的缺点是对初始聚类中心的选取是随机的, 聚类的结果和所需时间依赖初始质心的选择, 并且需要预先设定聚类数. 为了解决K-means对初始点敏感的问题, Arthur等提出了K-means++算法, 对K-means随机选择初始聚类中心的方法进行了改进, 即在选取初始聚类中心时使各聚类中心点之间的距离尽可能远, 结果证明K-means++能显著改善分类结果的最终误差[11]. 为了改善聚类数设定的问题, 本文利用SSE评价聚类结果, 通过肘部法则确定最佳聚类数. 算法的具体步骤如下:

 $SSE = \sum\limits_{i = 1}^k {\sum\limits_{x \in {C_i}} {{{\left\| {x - {\mu _i}} \right\|}^2}} }$ (12)

1) 从数据集中随机选取一个样本作为初始聚类中心;

2) 首先计算每个样本与当前已有聚类中心之间的最短距离(即与最近的一个聚类中心的距离), 用D(x)表示; 接着计算每个样本被选为下一个聚类中心的概率 $\scriptstyle \frac{{D{{\left( {{x}} \right)}^2}}}{{\sum\nolimits_{x \in X} {D{{\left( {{x}} \right)}^2}} }}$ ;

3) 重复第2)步直到选择出共K个聚类中心.

4) 使用选出的聚类中心用K-means聚类.

5) 比较不同聚类数得到的SSE值, 利用肘部法则确定最终聚类数目.

3 实验分析 3.1 实验数据

3.2 数据预处理

 $x'_i = \frac{{{x_i} - {x_{\min }}}}{{{x_{\max }} - {x_{\min }}}}$ (13)
3.3 基于K-means++的聚类结果

 图 2 不同聚类数目下SSE值

4 结语

 [1] Chen DQ, Sain SL, Guo K. Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining. Journal of Database Marketing & Customer Strategy Management, 2012, 19(3): 197-208. [2] 徐翔斌, 王佳强, 涂欢, 等. 基于改进RFM模型的电子商务客户细分. 计算机应用, 2012, 32(5): 1439-1442. [3] 徐文瑞. 基于RFM模型的顾客消费行为与顾客价值预测研究. 商业经济研究, 2017(19): 44-46. DOI:10.3969/j.issn.1002-5863.2017.19.015 [4] 包志强, 赵媛媛, 赵研, 等. 基于改进RFM模型的百度外卖客户价值分析. 西安邮电大学学报, 2019, 24(1): 105-110. [5] 熊兰, 高炳. 基于RFM多层级客户价值模型的客户细分研究. 商业经济研究, 2017(5): 55-57. DOI:10.3969/j.issn.1002-5863.2017.05.020 [6] Zhang L. Design of a sports culture data fusion system based on a data mining algorithm. Personal and Ubiquitous Computing, 2020, 24(1): 75-86. DOI:10.1007/s00779-019-01273-6 [7] 王克富. 基于数据挖掘技术的AFH客户分类应用研究. 技术经济与管理研究, 2012(11): 24-28. DOI:10.3969/j.issn.1004-292X.2012.11.005 [8] 邓聚龙. 灰理论基础. 武汉: 华中科技大学出版社, 2002. 87–437. [9] 周斌. 由灰色关联度确定权重的客观多目标决策法. 昆明理工大学学报(理工版), 2003, 28(5): 159-161. [10] 沈安琪, 高琳琳, 刘义坤, 等. 灰色关联与聚类分析方法在油层层系优化重组中的应用. 数学的实践与认识, 2019, 49(9): 130-137. [11] Arthur D, Vassilvitskii S. K-means++: The advantages of careful seeding. Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms. New Orleans, LA, USA. 2007. 1027–1035.