2. 金诚信矿业管理股份有限公司, 北京 100044;
3. 北京宸控科技有限公司, 北京 102200
2. JCHX Mining Management Co. Ltd., Beijing 100044, China;
3. Beijing KingKong Science & Technology Co. Ltd., Beijing 102200, China
随着智能手机的爆炸式发展, 用户可随时随地在各大社交平台分享自己的地理位置信息. 无论是视频、图片或文本信息, 都可轻易地嵌入当前用户的地理位置标签(Location Tag). 大量的位置Tag构成了基于地理位置的社交网络[1](Location-Based Social Networks, LBSN), 结合现有的各种定位系统, 可以为用户提供一些个性化服务. 根据LSBN中已经存在的链接和节点信息, 可以预测出用户位置网络中遗失的Tag或即将出现的Tag链接, 该方法称之为链接预测[2]. 例如, 在微博、微信等社交平台中, 用户等同于节点, 链接预测可用于建立新的好友关系.
文献[3]表明, 同一时间出现在同一位置的用户成为好友的概率要远高于处于不同地理位置的用户. 因此, 挖掘LBSN中潜在的标签信息对实现链接预测具有重大意义. 目前, 国内外已有很多科研工作者专注于基于地理位置标签的推荐算法研究, 判断用户地理位置的途径主要有两种: 第一, 挖掘用户发布到互联网中的内容信息可推断出用户的地理位置信息[4]. 第二, 通过社交平台中好友的地理位置推测用户的位置[5]. 近年来也有很多学者研究基于LDA主题建模的层次聚类[6]、无监督学习[7]、标签关联[8]推荐算法. 为提高位置预测的准确性, 可对用户位置信息进行筛选, 过滤掉无用的信息. 还可对用户签到信息建立LDA主题生成模型, 分析地理位置标签的特征, 设计出基于地理位置的推荐系统[9].
从用户签到信息中提取出时间特征和位置特征对于链接预测算法至关重要, 因为这些特征可用于评估用户之间的相似度, 进而提高预测的准确度. 然而实际的LBSN签到信息中, 地理位置的分布十分稀疏, 想要挖掘出位置和时间信息相当困难. 基于用户地理位置标签, 本文建立了新的LBSN链接预测模型, 提高了链接预测的准确度. 首先, 本文对Gowalla数据集进行聚类分析, 改善了地理位置分布的稀疏性问题. 其次, 本文对用户地理位置标签进行语义分析, 建立基于用户地理标签的LDA主题模型, 采用Gibbs抽样算法进行参数估算, 分析出用户的地理位置标签的相似性特征. 最后, 本文综合网络结构相似性特征和基于用户地理位置信息的相似度特征, 采用有监督策略的链接预测在Gowalla数据集上进行实验. 实验结果表明, 本文提出的模型能有效提高LBSN的链接预测准确度.
1 基于地理位置的LDA主题模型本文对LBSN中的用户地理位置标签建立LDA主题模型, 以便挖掘出用户的行为偏好. 用户的位置标签集合可当作一篇文档, 位置标签集合中的某条具体位置相当于构成文档的词汇. 对该主题模型进行求解, 可得出用户地理位置标签中隐藏的主题分布和地理标签主题下的位置分布.
假定用户
模型中的位置主题概率分布可用Gibbs[10]采样算法估算得出, 该分布可用一个doc-topic矩阵
本文实验使用的数据集是Gowalla的地理位置标签数据集, 可从SNAP官网直接下载得到, 用户地理位置标签的存储格式为:
$\begin{aligned}Checki{n_{i,j}} = &\left\{ {user\;ID,\;latitude,\;longitude,} \right.\\& \left. {timestamp,\;location\;ID} \right\}\end{aligned}$ |
由于数据集并没有具体的地理语义信息, 故需要先对其进行语义化. 本文采用百度公司免费的Place API和Geocoding API进行语义转换, 可将数据集中的地理坐标转换为具体的地址以及附近的POI (Point Of Interest)信息.
由于很多用户只在某一个地点签到过, 或跟其他用户没有共同的签到地点, 这类用户称之为孤点用户. 大量的孤点用户造成了数据的稀疏性, 严重影响链接预测的准确性. 为解决该问题, 本文降低了具体地点的限制, 对地点标签进行层次聚类, 以签到区域来构建用户关系网络. 设定一个距离阈值
$CH = \left[ \begin{array}{c}{d_{1,1}}, \cdots ,{d_{1,n}}\\{d_{2,1}}, \cdots ,{d_{2,n}}\\ \vdots \;\;\;\;\vdots \;\;\;\; \vdots \\{d_{m,1}}, \cdots ,{d_{m,n}}\end{array} \right]$ | (1) |
式(1)中的
上文提到, 采用Gibbs采样算法可估算出LDA主题模型中的两个概率分布: 位置主题分布
本文首先筛选出位置主题概率最大的K个主题来表达用户的位置主题. K的取值可按照经验预设, 剩下的主题概率可先置0. 本文先设定K=5, 在模型学习的过程中会对K值进行不断的修正. 然后对这K个地理位置主题分布函数进行归一化处理, 如公式(2)所示:
${p'_u}\left({{t_k}} \right) = \frac{{{p_u}\left({{t_k}} \right)}}{{\sum\nolimits_{k \in Top - K} {{p_u}\left({{t_k}} \right)} }}$ | (2) |
其中,
对于两个不同用户产生的概率分布函数, 需要计算出二者之间的距离. 统计学中的KL 散度(KL-Divergence)可用于测量不同概率分布的差异, 被广泛应用于基于LDA的推荐算法. 然而KL散度并不适用于本文基于地理位置标签的链接预测算法, 因为该方法具备非对称性特征. 如果两个用户对某主题都无兴趣, KL散度得出的结论是这两个用户具有很高的相似性. 同理, 如果两个用户都没有在某个地点签到, 那么KL散度会认为他们具有很高的相似度, 这显然会造成极大的误差. 因此, 本文采用一种新的方法来评估用户之间地理位置主题的差异性. 用户i在
${f_W}\left({x,y} \right) = \frac{{\sum\limits_{k \in Top - K} {\min \left({N\left({x,{t_k}} \right),N\left({y,{t_k}} \right)} \right)} }}{{\sqrt {\sum\limits_{k \in Top - K} {N\left({x,{t_k}} \right)} } \cdot \sqrt {\sum\limits_{k \in Top - K} {N\left({y,{t_k}} \right)} } }}$ | (3) |
其中, 分子代表用户x和y在k个主题下的位置总数最小值之和, 该值越大, 说明用户x和y在同一区域签到的数量越大, 二者的相似度越高. 式(3)进行了归一化处理, 最终结果可用于计算用户之间的相似度.
最后, 为了验证
从图2可看出, 基于位置标签语义分析的用户相似性特征
本文通过对用户地理位置信息的充分挖掘, 得出了基于地理位置语义分析的相似性特征. 这是本文所提出的链接预测模型的基础. 机器学习中的监督式学习算法经常被用于推荐系统的设计, 将收集到的海量训练数据集作为先验知识, 建立一个模型, 并根据输入的标签不断修正该模型, 最终该模型可针对新的输入预测出相应结果. 本文的链接预测算法基于有监督学习的思想, 输入为Gowalla数据集中的位置标签, 建立用户特征向量函数, 对其进行模型训练, 最终可用于链接预测.
接下来, 本文将采用有监督学习的策略对其进行链接预测. 实验中, LBSN链接预测采用Gowalla数据集进行仿真, 使用LBSN基于地理位置语义分析的相似性特征进行辅助实验. 本文实施的链接预测实验步骤如下:
(1)筛选原始数据集, 过滤掉其中无用的冗余信息和独立用户(即无任何好友关系的用户), 最总得到一个可用的LBSN社交关系网络图
(2)对集合
(3)由
(4)分析求解隐藏的用户节点信息中基于地理位置的相似性特征
(5)同理, 分析求解隐藏的用户节点对基于时间戳的相似性特征
(6)采用Gibbs抽样算法估算出用户基于地理位置主题的概率分布函数, 然后进一步求解隐藏用户节点对基于地理位置信息的用户相似度特征
(7)对社交网络中所有隐藏用户节点之间的相似度进行分析计算, 此处主要记录预测性能最佳的Resource allocation (RA)系数指标
(8)利用有监督学习策略的算法, 对上文计算得出的各类相似性特征做链接预测, 最终可得出特征向量
将上文求解得到的结果集与测试数据集做对比, 可分析出本文链接预测算法的性能. 由于本文采用有监督的链接预测算法, 故采用信息检索算法中常用的四大性能评估指标来衡量本文算法的性能优劣: 精度(Accuracy)、准确率(Precision)、召回率(Recall)以及综合Accuracy和Precision的加权调和平均(F-measure).
由于实验数据中链接分布不均匀, 本文还采用了一个新的评估指标AUC(area under the receive operating characteristic curve)[11], 如公式(4)所示:
$AUC = \frac{{n' + 0.5n''}}{n}$ | (4) |
其中,
本文采用有监督学习的方式对样本进行分类学习, 基于前人对的研究, 我们可获取关于类别特征的先验知识. 基于已有的类别特征信息, 可对模型进行训练并构造相应的分类器. 由于本文采用的是真实的Gowalla数据集, 故存在样本数据分布不均匀的情况. 为深入挖掘该数据集中的隐藏信息, 可采用机器学习中常用的k-折交叉验证(k-fold cross Validation)法, 该方法得到的实验结果更加真实. 实验证明, 当k值取10的时候可得到最佳的实验效果[12], 故本文采取10倍交叉验证来评估模型的性能.
上文提到, 本文利用有监督的学习思想对模型中需要输入的参数根据经验预先给出, 然后通过实验对其不断修正. 本文模型中有三个输入参数需要进行调优: 对地理位置信息聚类处理时的距离阈值
对距离阈值
由图3可知, 当链接预测距离阈值
上文提到, 基于地理位置的LDA主题模型可采用Gibb采样算法进行分析求解, 最后得出用户地理位置主题分布
为了以最低的时间复杂度计算出特征函数
本文在第3.3小节进行了相关参数调优, 接下来本文将使用开源的智能分析环境WEKA提供的几种分类器对Gowalla数据集进行链接预测实验: 朴素贝叶斯分类器(NB)、随机森林分类器(RF)以及决策树分类器(J48). 分别对特征向量
从表3中可看出, 基于地理位置标签的特征向量
从表3中还可看出, 以上两个实验中链接预测性能优劣为随机森林算法优于朴素贝叶斯算法, 而朴素贝叶斯算法又优于决策树算法, 单三者之间并无明显差异, 说明本文提出的算法具有良好的稳定性, 不同分类器对该算法的影响几乎可以忽略不计.
4 结论与展望
为解决地理位置分布的稀疏性问题, 本文对测试数据集进行聚类分析, 并建立了基于用户地理标签的LDA主题模型, 分析出用户的地理位置标签的相似性特征. 最后, 本文综合了网络结构相似性特征和基于用户地理位置信息的相似度特征, 采用有监督策略的链接预测在Gowalla数据集上进行实验. 实验结果表明, 本文提出的模型能有效提高LBSN的链接预测准确度, 且具有良好的稳定性. 然而随着互联网的发展, LBSN的数据规模呈现指数级的增长, 未来可进一步研究基于大数据分布式平台的链接预测算法.
[1] |
Fisher A, Gilat D, Nadler S, et al. Device, system, and method of generating location-based social networks: US, US 20090215469A1. 2009-08-27.
|
[2] |
Srinivas V, Mitra P. Link Prediction in Social Networks: Role of Power Law Distribution. Cham: Springer, 2016.
|
[3] |
Scellato S, Noulas A, Lambiotte R, et al. Socio-spatial properties of online location-based social networks. Proceedings of the 5th International AAAI Conference on Weblogs and Social Media. Barcelona, Spain. 2011. 2011.
|
[4] |
朱荣鑫. 基于地理位置的社交网络潜在用户和位置推荐模型研究[硕士学位论文]. 南京: 南京邮电大学, 2013.
|
[5] |
Jurgens D, Finethy T, McCorriston J, et al. Geolocation prediction in twitter using social networks: A critical analysis and review of current practice. Proceedings of the 9th International AAAI Conference on Web and Social Media. Oxford, England. 2015. 188–197.
|
[6] |
卢文羊, 徐佳一, 杨育彬. 基于LDA主题模型的社会网络链接预测. 山东大学学报(工学版), 2014, 44(6): 26-31. DOI:10.6040/j.issn.1672-3961.1.2014.116 |
[7] |
刘红兵, 李文坤, 张仰森. 基于LDA模型和多层聚类的微博话题检测. 计算机技术与发展, 2016, 26(6): 25-30. DOI:10.3969/j.issn.1673-629X.2016.06.006 |
[8] |
张佳明, 王波, 唐浩浩, 等. 基于Biterm主题模型的无监督微博情感倾向性分析. 计算机工程, 2015, 41(7): 219-223. DOI:10.3969/j.issn.1000-3428.2015.07.042 |
[9] |
马慧芳, 贾美惠子, 李晓红, 等. 一种基于标签关联关系的微博推荐方法. 计算机工程, 2016, 42(4): 197-201. DOI:10.3969/j.issn.1000-3428.2016.04.035 |
[10] |
Porteous I, Newman D, Ihler A, et al. Fast collapsed gibbs sampling for latent dirichlet allocation. Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Las Vegas, NV, USA. 2008. 569–577.
|
[11] |
Lobo JM, Jiménez-Valverde A, Real R. AUC: A misleading measure of the performance of predictive distribution models. Global Ecology and Biogeography, 2008, 17(2): 145-151. DOI:10.1111/geb.2008.17.issue-2 |
[12] |
Ying JJC, Lu EHC, Lee WC, et al. Mining user similarity from semantic trajectories. Proceedings of the 2nd ACM SIGSPATIAL International Workshop on Location Based Social Networks. San Jose, CA, USA. 2010. 19–26.
|