计算机系统应用  2018, Vol. 27 Issue (6): 53-59   PDF    
基于云模型理论的群体用户画像模型
姚龙飞, 何利力     
浙江理工大学 信息学院, 杭州 310018
摘要:为了能够对群体用户中不确定性和模糊性的行为精确的定量分析和定性相似度的计算, 设计了一个基于云模型理论的定性相似度算法来给群体用户构建画像模型. 首先, 采用识别客户价值最广泛的RFM (Recency, Frequency, Monetary)模型来细分用户. 其次, 通过云模型变换算法将用户的行为转换为用户的云模型标签, 该云模型标签就是对用户行为的一次定量表示, 然后通过云模型聚类算法来划分出不同的客户类型, 作为客户画像的模型, 利用该模型指导商业营销活动.
关键词: 云模型    群体用户画像    云模型聚类    RFM模型    
Model of Group User Portrait Based on Cloud Model Theory
YAO Long-Fei, HE Li-Li     
School of Informatics and Electronics, Zhejiang Sci-Tech University, Hangzhou 310018, China
Abstract: In order to quantitatively analyze and qualitatively calculate the uncertainty and ambiguity of group users accurately, in this study, a qualitative similarity algorithm based on cloud model theory is designed to build a portrait model for group users. Firstly, the user is divided by the most widely recognized RFM mode—Recency, Frequency, and Monetary. Secondly, the user’s behavior is transformed into the user’s cloud model label through the cloud model transformation algorithm. The cloud model label is a quantitative representation of user’s behavior. Then, the cloud model clustering algorithm is used to classify different types of customers which are the model of customer portrait. Finally, the model is used to guide commercial marketing activities.
Key words: cloud model     group user portrait     cloud model clustering     RFM model    

随着计算机技术和网络技术的飞速发展, 各企业积累了用户大量消费数据, 很多领域和行业开始意识到数据是贯穿整过营销过程的始末, 其对营销的效果起着至关重要的作用, 因此如何利用用户的行为数据以及如何利用数据对用户开展精细化营销成为了企业在激烈的市场竞争环境下立于不败之地的最强有力的后盾. 用户画像伴随着数据时代而来, 旨在通过从海量用户行为数据中练金挖银, 尽可能全面细致地抽出一个用户的信息全貌, 从而帮助解决如何把数据转换为商业价值的问题. 因此如何通过用户的数据准确的刻画用户行为并给用户构建画像模型是突破当前营销瓶颈的重要途径.

已有学者对如何准确刻画用户行为以及如何准确的给用户构建画像模型的问题开展了研究, 如陈志明等[1]构建了基于用户基本属性、社交属性、兴趣属性和能力属性四个维度的动态用户画像模型, 并对“知乎”网站PM2.5话题下1303位用户进行了实证分析; 姜建武等人[2]在大数据理论基础上提出构建行为-主题、主题-词汇及行为-词汇三位一体的数学模型, 来研究基于用户画像的信息本体提取方法. 采用包含对象、时间、地点、内容、行为和重返次数六方面内容的事件描述法计算本体权重, 以此构建用户画像; Chen等[3]建立个体指纹与基因之间的关联, 使用基于MapReduce框架的图形处理单元尝试从基因的角度精确的反映用户信息全貌, 建立人体健康信息档案. 王丹[4]提出了一种结合主题模型和点互信息的用户画像提取(TM-PMI)方法. 从LDA模型的思想、原理以及LDA求解方法—吉布斯采样等全面描述了用户文本信息建模的方法. 将用户文本信息主题模型和点互信息结合建立用户个性化主题词,得到个性化用户画像.

已有研究方法虽然取得了一定的成果, 但现有方案和算法主要是通过定量的标签来给用户画像建立不同的模型, 通过这些模型来判断用户的行为倾向, 而对于用户行为中出现的大量模糊性与随机性的标签无法做到直接建模. 鉴于此, 本文将引入云模型理论, 对用户群体画像中基于RFM模型的定性标签展开研究.

1 云模型理论概述

云模型理论是李德毅院士提出的定性与定量转换模型, 能够实现定性概念与其数值表示之间的不确定性转换. 其中正态云是云模型中最重要的模型, 具有普适性[5], 已经在许多领域有很多成熟的应用[6,7].

1.1 云和云滴

U是用数值精确表示的一个定量论域, CU上的一个定性概念, 若定量值 $\chi \in U$ , $\chi $ 是定性概念C的一次随机实现, $\chi $ C的确定度 $\mu \left( \chi \right) \in \left[ {0,1} \right]$ 是有稳定倾向的随机数满足:

$\mu : U \to \left[ {0,1} \right]$ , $\forall \chi \in U \chi \to \mu \left( \chi \right)$

$\chi $ 在论域U上的分布称为云, 每一个 $\chi $ 称为一个云滴[8].

1.2 云的数字特征

概念的整体特性可以用云的数字特征来反映, 这是定性概念整体性定量特征, 对理解定性概念的内涵和外延有重要的意义[9].

云模型用期望Ex, 熵En和超熵He, 3个数字特征来整体表示一个定性概念.

期望Ex: 定性概念的基本确定性度量, 是云滴在论域空间分布的均值(数学期望). 通俗的说, 就是最能够代表定性概念的点.

En: 表示定性概念的不确定性度量, 它是由概念的模糊性和随机性共同决定. 一方面, 熵是定性概念随机性的度量, 反映了能够代表这个定性概念的云滴离散程度; 另一方面, 又是隶属于这个定性概念的度量, 决定了论域空间中可被概念接受的云滴确定度.

超熵He: 表示熵的熵, 指熵不确定的度量. 对于一个定性概念, 被普遍接受的程度越高, 超熵越小, 在云图上云滴比较聚集; 对于难以形成共识的概念, 超熵则比较大, 在云图上云滴比较离散.

1.3 云发生器

云发生器分正向云发生器和逆向云发生器[10], 它们是云模型核心算法. 见算法1及算法2.

算法1. 正向高斯云发生器

输入: 表示定性概念C的3个数字特征(Ex,En,He), 生成云滴的个数N.

输出: N个云滴的定量值, 及其确定度μ.

算法步骤:

1) 生成以En为期望值, $\scriptstyle H{e^2}$ 为方差的一个高斯随机数 $\scriptstyle E{n_i} = NORE\left( {En,H{e^2}} \right)$ ;

2) 生成以Ex为期望值, $\scriptstyle {\left( {E{n_i}} \right)^2}$ 为方差的一个高斯随机数 $\scriptstyle {x_i} = NORE\left( {Ex,{{\left( {E{n_i}} \right)}^2}} \right)$ ;

3) 计算 $\scriptstyle {\mu _i} = {e^{\frac{{{{\left( {{x_i} - Ex} \right)}^2}}}{{2{{\left( {E{n_i}} \right)}^2}}}}}$ ;

4) 具有确定度 $\scriptstyle {\mu _i}$ $\scriptstyle {x_i}$ 成为数域中的一个云滴;

5) 重复步骤1)到4), 直至产生N个云滴.

正向高斯云发生器的运行机理如图1所示

图 1 正向高斯云发生器

算法2. 逆向高斯云发生器

输入: 样本点 $\scriptstyle {x_i}$ , 其中i=1,2,…,n.

输出: 反映定性概念的数字特征(Ex,En,He).

算法步骤:

1) 计算 $\scriptstyle {x_i}$ 的平均值

$\scriptstyle \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad Ex = \frac{1}{n}\sum\limits_{i = 1}^n {{x_i}} \quad\quad\quad\quad\quad\quad\quad\quad\quad(1)$

2) 计算样本一阶绝对中心矩

$\scriptstyle \quad\quad\quad\quad\quad\quad\quad\quad\quad \frac{1}{n}\sum\nolimits_{i = 1}^n {|{x_i} - Ex|} \quad\quad\quad\quad\quad\quad\quad\quad\quad(2)$

3) 计算样本二阶中心矩

$\scriptstyle \quad\quad\quad\quad\quad\quad\quad\quad S = \frac{1}{{n - 1}}{\sum\nolimits_{i = 1}^n {\left( {{x_i} - Ex} \right)} ^2}\quad\quad\quad\quad\quad\quad\quad\quad(3)$

4) 计算

$\scriptstyle \quad\quad\quad\quad\quad\quad En = \sqrt {\frac{\pi }{2}} * \frac{1}{n}\sum\nolimits_{i = 1}^n {|{x_i} - Ex|} 0 < He < \frac{{En}}{3} \quad\quad\quad\quad\quad \ (4)$

5) 求

$\scriptstyle \quad\quad\quad\quad\quad\quad\quad\quad\quad He = \sqrt {S - E{n^2}} \quad\quad\quad\quad\quad\quad\quad\quad\quad(5)$

逆向高斯云发生器的运行机理如图2所示.

图 2 逆向高斯云发生器

2 研究与分析 2.1 基于云模型用户画像设计方案

为了给用户制作全方位的精准画像, 本文采用客户关系管理分析中的RFM模型, RFM模型是衡量客户价值和客户创利能力的重要工具和手段, 该机械模型通过一个客户的近期购买行为、购买频率和每次购买消费的金额3个指标来描述客户的整体价值. 本文从客户的交易信息中提取RFM模型的3个指标进行分析, 综合运用云模型的理论来得出客户类型聚类的结果, 其具体过程(如图3)如下:

1) 采集用户画像数据并进行数据预处理;

2) 把用户画像数据划分为客观属性和行为属性. 其中客观属性数据代表的是用户固有属性, 在这里把这类固有数据处理为用户的唯一标识, 在数据库中作为token(ID)来存储. 行为属性是用户画像建模的主要数据来源, 这些属性数据分别划分为定量属性与定性属性;

3) 为了消除数据带来的影响, 需要对数据进行标准化处理;

4) 将标准化处理后的定量数据通过逆向高斯云发生器, 将定量属性转换为定性属性. 定性属性作为建模的起点, 分为时间间隔云模型、消费频率云模型、消费金额云模型, 如表1所示;

表 1 用户画像指标

5) 通过云模型聚类算法生成用户画像聚类云模型;

6) 经过正向高斯云发生器将用户画像聚类云模型转换为量化的用户画像数值区间;

7) 由量化的用户画像数值区间分析得出用户群体聚类模型.

图 3 基于云模型用户画像设计流程

2.2 基于云模型的聚类算法

云模型聚类算法是将传统的K-means算法引入到定性概念聚类的领域, 是对K-means算法应用领域的一次拓展, 该算法的核心是基于云模型理论, 涉及云模型的相似度、综合云等等. 通过该算法可以对定性概念聚类分析.

2.2.1 综合云

定义1. 将两个及以上具有相同属性特征的云模型进行综合, 得到一个高层次的云模型, 叫做综合云[11].

设在论域U中有b个同类型子云 ${C_1}(E{x_1},E{n_1},$ $H{e_1}),{C_2}(E{x_2},E{n_2},H{e_2}), \cdot \cdot \cdot ,{C_b}(E{x_b},E{n_b},H{e_b})$

则综合云表示为

$Ex = \frac{{\sum\nolimits_{k = 1}^b {E{x_k} * E{n_k}} }}{{\sum\nolimits_{k = 1}^b {E{n_k}} }}$ (6)
$En = \sum\nolimits_{k = 1}^b {E{n_k}} $ (7)
$He = \displaystyle\frac{{\displaystyle\sum\nolimits_{k = 1}^b {H{e_k} * E{n_k}} }}{{\displaystyle\sum\nolimits_{k = 1}^b {E{n_k}} }}$ (8)

其中, $E{x_k}$ , $E{n_k}$ , $H{e_k}$ 分别为各子云的数字特征.

2.2.2 云模型相似度

定义2. 任意具有相同属性特征的云模型的相似程度叫云模型相似度[12], 采用余弦相似度来定量表示:

设在论域U中任意2个同类属性云为 ${U_{ik}}( {E{x_{ik}},E{n_{ik}},}$ $ {H{e_{ik}}})$ , ${V_{jk}}\left( {E{x_{jk}},E{n_{jk}},H{e_{jk}}} \right)$ 则有

$\begin{aligned}& Sim\left( {{U_{ik}},{V_{jk}}} \right) \\& = \cos \left( {{U_{ik}}\left( {E{x_{ik}},E{n_{ik}},H{e_{ik}}} \right),{V_{jk}}\left( {E{x_{jk}},E{n_{jk}},H{e_{jk}}} \right)} \right) \\&= \frac{{{U_{ik}}\left( {E{x_{ik}},E{n_{ik}},H{e_{ik}}} \right) \cdot {V_{jk}}\left( {E{x_{jk}},E{n_{jk}},H{e_{jk}}} \right)}}{{||{U_{ik}}\left( {E{x_{ik}},E{n_{ik}},H{e_{ik}}} \right)|| * ||{V_{jk}}\left( {E{x_{jk}},E{n_{jk}},H{e_{jk}}} \right)||}}\end{aligned}$ (9)
2.2.3 云模型聚类算法描述

为了借助K-means算法来分析云模型, 设计了算法3.

算法3. 基于云模型的聚类算法

输入: 聚类的个数K, K个云模型聚类中心.

输出: K个聚类中心簇.

1) 从用户画像云模型集合V={V1,…,Vm}中任意检索出K个初始化云模型聚类中心, 记作初始化聚类云模型集合U={U1,…,Uk}; 云模型指标集合记为C={C1,…,Cj}; 云模型相似度集合记为S.

2) 计算用户云模型集合元素与云模型聚类中心元素的定性相似度(先遍历U, 然后遍历V).

for each Ui in U do

for each Vj in V do

//计算集合U中每一个元素Uik与集合V中每一个元素Vjk的云模型相似度, ${\gamma _k}$ 为权重因子.

$\scriptstyle Sim\left( {{U_i},{V_j}} \right) = \sum\nolimits_{k = 1}^n {Sim\left( {{U_{ik}},{V_{jk}}} \right)} $ $\scriptstyle{\gamma _1} + {\gamma _2} + \cdots + {\gamma _k} = 1$ ;

$\scriptstyle S = Sim\left( {{U_i},{V_j}} \right) \cup S$ //将云模型相似度装入集合S中.

3) 根据相似度的最大值取出云模型聚类元素, 放入到对应的Gi集合中(先遍历V, 然后遍历U).

for each Vj in V do

 for each Ui in U do

  for each $\scriptstyle Sim\left( {{U_i},{V_j}} \right)$ in S do

$\scriptstyle {G_i} = \max \{ Sim\left( {{U_i},{V_j}} \right)\} \cup {G_i}$

4) 设定阈值F

if $\scriptstyle F > \min \{ {G_i}\} $ //F大于聚类云模型集合Gi中最小值

then 式(6), (7), (8)

// 新的聚类中心

$\scriptstyle C = \{ {C_1}(E{x_1},E{n_1},H{e_1}),{C_2}(E{x_2},E{n_2},H{e_2}), \cdot \cdot \cdot ,{C_n}(E{x_n},E{n_n},H{e_n})$

重复步骤2), 3).

end

3 实验分析

本节的仿真实验软硬件以及编程平台如下: Intel(R) Core(TM) i5 CPU, 6 GB内存, 操作系统为Windows 10, 在MATLAB环境下进行仿真实验.

本节将对前文提出的聚类云模型算法进行场景模拟仿真分析, 以验证该算法在实际场景中的应用效果, 从而达到指导商家开展相应的个性化促销目的.

本仿真数据来自于浙江中烟CRM系统中客户交易的记录, 从中抽取2000位客户(2016.7–2017.6的数据)作为此次抽取的样本对象. 每位客户的交易信息包括姓名, 每一个自然月(从上个月最后一个非完整周的周一到本月最后一个完整周的周日)购买时间区间(T)、每一个自然月内距最近一次购买时间间隔(R)、每一个自然月内购买次数(F)、每一个自然月内消费总金额(C).

3.1 数据处理与分析

(1)数据预处理, 即对2000位客户的原始数据整理得到每一个客户在2016.7–2017.6区间内的交易记录结果(局部)如表2所示.

表 2 某郭姓客户2016.7–2017.6区间内的交易记录

表2的数据标准化处理, 以消除数据之间的影响.

(2)由公式(1)至(5)得到每一个客户的3种云模型(局部), 如表3所示.

表 3 用户画像云模型指标值(局部)

(3)由聚类云模型算法得到每一类画像聚类数和聚类中心. 结果如表4所示.

(4)客户价值分析, 即云模型的3个数字特征参数中, 期望(Ex)代表用户画像某种行为特征的最可能取值, 熵(En)反映了用户画像某种行为特征所有的取值相对于期望(Ex)的离散度, 熵越大代表该用户画像所代表的某种行为属性的稳定性低. 通过期望(Ex)和熵(En)可以近似的将云图转换为一个区间的取值. 超熵(He)反映了熵的离散程度, 超熵越小云滴越聚集在云图的轮廓线附近.

一个云图是由许许多多的具有3个数字特征的云滴组成, 所有的云滴对某种定性概念的形成都有贡献, 不同的云滴群对概念的贡献是不同的[13], 根据李德毅院士证明的高斯云“3En规则”(如图4所示), 即可以忽略[Ex–3En, Ex+3En]区间外的云滴对定性概念的贡献.

表 4 云模型聚类结果

图 4 论域中的元素对定性概念的贡献

表4中云模型聚类的结果, 得到了每一类群体画像的云模型指标, 将云模型的指标通过正向高斯云发生器得到每一个云模型的云图, 这里取云滴数为2000. 云图结果如图5图8所示. 通过云图的分布, 能够比较清晰的看到各群体用户基于RFM指标的分布情况.

根据高斯云“3En规则”, 由期望(Ex)和熵(En)可以近似的将云图转换为一个量化的区间范围, 得到如表5结果, 该区间取值的范围大致描述了对应的用户画像模型.

为了从用户画像中分析得出各种类型画像的映射群体及群体代表的用户特征, 取高斯云“3En规则”的区间中点代表该行为属性的聚集点, 得到客户群特征图, 如图9所示

如上图所示, 通过纵向比较, 消费频率在画像一所代表的群体中该特征比较明显; 消费金额在画像一、画像二、画像三所代表的群体中该特征均表现明显, 在画像四所代表的群体中该特征比较弱; 时间间隔在画像三、画像四所代表的群体中特征比较明显, 在画像一、画像二所代表的群体中该特征比较弱. 从图中可以看出, 每一类型的用户画像都具有显著不同的特征, 通过对不同类型的画像和用户行为特征的分析, 将这四种画像映射为四类群体: 重要保持客户、重要挽留客户、重要发展客户、低价值客户[14]. 即如图10所示.

3.4 应用

根据本节的实验分析结果, 得到基于云模型的RFM指标聚类的用户画像群体映射为重要保留客户、重要发展客户、重要挽留客户、低价值客户, 针对这四类群体的特征来指导企业开展相应的商业营销活动.

(1) 重要保留客户: 该类客户的特征是消费频率高、消费的金额高、最近一次消费的时间离统计的节点比较近. 这类客户具有很高的消费能力, 同时他们对该企业的产品具有很高的忠诚度, 是企业最理想的客户, 对他们进行差异化管理和一对一营销, 不断提高该用户的忠诚度与满意度, 尽可能延长其高消费的水平.

(2) 重要发展客户: 该类客户的特征是消费频率低、消费的金额高、最近一次消费的时间离统计的节点比较近. 他们是企业潜在客户, 既是容易流失的客户类型也是容易发展为企业忠臣客户的类型, 企业需要针对该类型的客户制定相应的策略来提高该类客户的满意度, 提高他们对企业产品消费的频率, 使他们逐渐成为企业的忠诚客户.

图 5 画像一云模型

图 6 画像二云模型

图 7 画像三云模型

图 8 画像四云模型

表 5 用户画像区间取值范围

图 9 用户画像聚类特征图

图 10 客户群体特征图

(3) 重要挽留客户: 该类客户的特征是消费频率低、消费金额高、最近一次消费的时间离统计的节点很久远. 该类客户价值变化的模糊性和随机性比较大, 对这类客户需要企业多方面掌握该客户的信息, 重点联系, 采取一定的营销策略来延长该类客户的生命周期.

(4) 低价值客户: 该类的客户的特征是消费频率低、消费金额低、最近一次消费的时间离统计的节点很久远. 该类客户可能只在企业做活动时才会消费. 这类客户是企业的边缘客户, 在营销上的成本比较大, 但这类客户在某种程度上是企业产品的宣传大军, 是企业可以留意的的客户群体.

因此, 通过云模型的聚类分析得到用户画像群体, 有助于企业对客户进行细分, 根据客户的不同特征, 企业可以为每类群体制定个性化的营销策略. 提高企业在市场中的竞争力.

4 结论与展望

在大数据时代, 如何利用海量的用户数据来为企业创造价值是一个非常重要的课题, 本文通过基于RFM模型的三个指标对用户行为进行分析, 构建了基于RFM模型的云模型, 基于云模型的理论分析用户不确定性与模糊性的行为, 构建用户画像模型. 不仅为企业实施精准营销提供了借鉴, 同时也为大数据时代研究精准营销提供了一点思路.

虽然本文用户画像构建不是很全面, 有关模型的指标也仅仅是局限在RFM模型, 但后续研究者可以针对企业的自身情况从RFM指标上拓展, 使得该指标更全面的反映客户关系管理各种要素. 同时基于云模型的聚类算法的复杂度需要进一步优化, 本文仅仅是对2000位客户分析, 如果数据量非常大的话该算法效率就非常低, 后续研究可以考虑通过Hadoop平台的MapReduce[15]运算框架来处理大量的客户信息数据.

参考文献
[1]
陈志明, 胡震云. UGC网站用户画像研究. 计算机系统应用, 2017, 26(1): 24-30. DOI:10.15888/j.cnki.csa.005543
[2]
姜建武, 李景文, 陆妍玲, 等. 基于用户画像的信息智能推送方法. 微型机与应用, 2016, 35(23): 86-89, 92.
[3]
Chen GC, Zhao JY, Cohen T, et al. Using ontology fingerprints to disambiguate gene name entities in the biomedical literature. Database, 2015, 2015: bav034. DOI:10.1093/database/bav034
[4]
王丹. 基于主题模型的用户画像提取算法研究[硕士学位论文]. 北京: 北京工业大学, 2016.
[5]
李德毅, 刘常昱. 论正态云模型的普适性. 中国工程科学, 2004, 6(8): 28-34.
[6]
Wu AY, Ma ZG, Zeng GP. Set pair fuzzy decision method based on cloud model. Chinese Journal of Electronics, 2016, 25(2): 215-219. DOI:10.1049/cje.2016.03.004
[7]
Du RX, Rong H, Xian M, et al. A measurement method of threat for co-residency detection based on cloud model. Proceedings of 2016 International Conference on Computer, Mechatronics and Electronic Engineering (CMEE 2016). Beijing, China. 2016. 8.
[8]
崔天宝. 基于云模型的短期电价预测的研究[硕士学位论文]. 保定: 华北电力大学(河北), 2008.
[9]
李德毅, 杜鹢. 不确定性人工智能. 2版. 北京: 国防工业出版社, 2014. 40–56.
[10]
刘常昱, 李德毅, 杜鹢, 等. 正态云模型的统计分析. 信息与控制, 2005, 34(2): 236-239, 248.
[11]
李克潮, 凌霄娥. 云模型与用户聚类的个性化推荐. 计算机应用, 2013, 33(10): 2804-2806, 2826.
[12]
陈平华, 陈传瑜. 基于云模型的用户双重聚类推荐算法. 计算机工程与科学, 2015, 37(7): 1245-1251.
[13]
李德毅. 知识表示中的不确定性. 中国工程科学, 2000, 2(10): 73-79. DOI:10.3969/j.issn.1009-1742.2000.10.018
[14]
丁欣. 东方航空公司机票营销渠道优化策略研究[硕士学位论文]. 上海: 复旦大学, 2013.
[15]
Wang JY, Yao Y, Mao Y, et al. OMO: Optimize MapReduce overlap with a good start (reduce) and a good finish (map). Proceedings of the 34th IEEE International Performance Computing and Communications Conference. Nanjing, China. 2015. 1–8.