2. 福建省网络安全与密码技术重点实验室, 福州 350007
2. Fujian Provincial Key Laboratory of Network Security and Cryptology, Fuzhou 350007, China
社交网络(social networks, SNs)是一种人与人之间的关系与互动的结合[1]. 社交网络把网络中的每个节点看作参与这个网络中人的抽象, 每个人之间的关系则抽象成节点之间的连边, 网络中每个人的行为不同且具有不同的属性特征. 在线社交网络的起点是电子邮件的出现, 早期的电子邮件解决了远程的邮件传输问题, 人们用电子邮件交换信息所构成的关系网络就是在线社交网络的最早形式.
随着互联网技术和无线技术的迅猛发展, 移动社会网络(mobile social networks, MSNs)应运而生[2]. 如图1, 移动社会网络是从在线社交网络演化而来的一种用户驱动的移动通信网络. 这种网络具有更加显著的泛在性和移动性, 其中包括节点(用户)的社交连接[3]. 同时, 移动社会网络也具有移动通信网络和在线社交网络的一些基本属性, Dong等[4]发现移动社交网络具有典型的无尺度网络和小世界网络属性. Pietilänen等[5]发现移动社会网络中人们表现出空间上复杂的移动性以及各个用户具有复杂的个人属性. 移动社会网络的发展给人们的日常生活带来很多便利的服务, 例如基于位置的可穿戴设备, 医疗保健以及移动社会网络服务等.
高影响力节点挖掘是移动社会网络分析中的重要内容. 通过从网络中识别前
启发式算法通过考虑网络的拓扑结构来衡量网络中节点的重要性, 并把重要性高的节点作为高影响力节点. Freeman[6]首先提出用度中心性(degree centrality, DC)衡量网络中节点的重要性, 按照节点的度中心性大小衡量节点的影响力强度. 以图中的最短路径经过一个节点的次数表现了该节点与其他节点的互动程度这一观点提出了介数中心性(betweenness centrality, BC)[7]这一指标来评价节点在网络中的影响力强度. PageRank (PR)算法[8]属于特征向量中心性的一种变体. 节点的影响指标定义为PR值, 如果一个网页被很多其他网页链接到的话这个网页的PR值会相对较高, 也就是更加重要. 陆晓野等[9]从社区的角度提出基于节点频度中心度的挖掘算法. 张宪立等[10]在PageRank基础上提出反向PageRank算法并与度中心性结合得到一种混合的启发式算法(heuristic algorithm of mixed PageRank and degree, MPRD). Kitsak等[11]提出了核心度(coreness)作为评价节点在网络中影响力的指标, 利用k-核分解[12]计算在网络中各个节点的影响力. Morone等[13]基于渗透理论提出了集体影响(collective influence, CI)这一网络拓扑指标, 利用渗透模型找出被破坏就会使整个网络崩溃的节点, 把这些节点集作为影响力前k节点. 宋甲秀等[14]在集体影响的基础上提出了局部集体影响算法(local collective influence rank algorithm, LCIR)使得影响力的传播更加稳定. 康玲等[15]对网络中的节点根据紧密度情况重新排序, 并绘制网络的区域密度曲线, 在密度图中波谷点两侧选取一定比例的节点作为影响力节点. 杨树新等[16]考虑局部方法的适宜度量层级与网络拓扑的差异性, 提出一种新的基于3级邻居的节点影响力度量法(three-level influence measurement, TIM).
基于传播的贪心算法通过贪心策略近似的追求最优解: 初始设置空的影响力节点集, 并不断向节点集中添加当前网络中最具影响力的节点. Kempe等[17]证明影响力最大化问题是NP-hard问题, 并提出原始贪心策略用于求影响力前k节点. 使用基于子模块函数的分析框架证明了原始贪心策略所获得的解决方案对于几种类型的模型而言, 在最优值的63%之内. Leskovec等[18]提出CELF (cost-effective lazy-forward)方法根据影响力扩散的子模态特性来避免影响范围的冗余计算从而提高了贪心算法的计算效率. Kim等[19]基于IC模型提出一种独立路径算法(independent path algorithm, IPA)来近似计算节点的影响力传播能力. Kianian等[20]在IPA的基础上考虑到两条影响路径的相关性并与启发式算法结合提出一种高效的启发式独立路径算法(heuristic independent path algorithm, HIPA). 李国良等[21]针对多社交网络中影响力传播问题, 使用节点间具有最大传播概率的路径来近似衡量节点间的传播概率.
上述方法虽然在影响力最大化研究上做出了重要贡献, 但是实际社会网络中信息传播并不完全基于网络的拓扑特性, 它们未考虑到信任对于用户间交互的重要性. Asim等[22]根据多种信任度计算方法提出了一种社会网络信任模型(SNTrust model)揭示了在本地网络中节点的影响力和信任度是存在着联系的. 例如: 若两个人之间具有更高的相似度, 则相互之间的信任度越高, 也越有利于两者间信息的交换. 因此, 可以用信任度来评价节点在其相邻节点中的影响力, 并且节点的偏好以及节点间的信任关系在很长一段时间内是一种较为稳定状态, 只有当外界环境发生重大变化时才会改变, 所以静态网络中节点的信任度可以用于刻画这个网络一段时间内网络中节点的状态以及节点间的关系. 然而, 尽管某一用户节点在其邻居节点中信任度高, 但是并不能证明它就是整个网络中的高影响力节点. 为了解决这些问题, 我们提出一种基于邻居节点间信任度和Beta信誉模型[23]的全局信任模型(global trust model, GTM)用于计算网络中节点的影响力. 利用SI模型, 在真实网络数据集中与启发式算法所挖掘的影响力节点集合和其传播效果进行比较, 证明了本文所提出模型在保证精确性和传播能力的同时, 还具有更低的时间复杂度.
1 全局信任模型概述为解决影响力最大化选择前
(1)节点局部信任度计算阶段. 计算节点与邻居节点间的属性信任度和共同好友相似信任度, 结合一起得到节点在邻居节点中的局部信任度.
(2)节点全局信任度计算阶段. 利用Beta信誉模型, 在节点的局部信任度的基础上得到节点的全局信任度.
(3)影响力节点选取阶段. 通过对节点的全局信任度大小排序, 选取全局信任度最大的前
在本节我们提出一种新的信任模型设计方式. 首先从局部的角度计算节点的初始信任值, 再从全局的角度对节点的信任值进行再计算得到节点的全局信任值, 最后选取其中的前
本文中, 网络由
在计算局部信任度中, 我们考虑两个因素来计算: 属性信任, 共同好友相似信任.
(1)属性信任
Baek等[24]发现当两个人之间相似的特征更多时, 会使得双方在一起交流更加舒服并有进一步接触的趋势. Golbeck[25]发现用户大多信任具有相似属性的其他人. 因此可以通过用用户间属性相似度来计算他们的信任度. 我们通过Pearson相关系数[26]来计算两节点间的属性序列相似度:
$ {\rho }_{{X}_{{v}_{1}}, {Y}_{{v}_{2}}}=\frac{cov({X}_{{v}_{1}}, {Y}_{{v}_{2}})}{{\sigma }_{{X}_{{v}_{1}}}{{\sigma }_{y}}_{{v}_{2}}} $ | (1) |
其中,
(2)共同好友相似信任
Lo等[27]提出当两用户都对第3个用户有良好的关系, 则这两个用户就可能建立起良好的关系. 因此, 我们通过共同好友的相似度来计算节点间的信任值. 该模型中利用Jaccard系数[28]来计算两用户之间的共同好友相似度:
$ J({N}_{{v}_{1}}, {N}_{{v}_{2}})=\frac{|{N}_{{v}_{1}}\cap {N}_{{v}_{2}}|}{|{N}_{{v}_{1}}\cup {N}_{{v}_{2}}|} $ | (2) |
其中,
最后, 节点的初始信任度通过属性信任与共同好友相似信任结合计算:
$ {T}_{{v}_{1}{v}_{2}}=\alpha \left({\rho }_{{X}_{{v}_{1}}, {Y}_{{v}_{2}}}\right)+\beta \left(J\right({N}_{{v}_{1}}, {N}_{{v}_{2}}\left)\right) $ | (3) |
$ {T}_{{v}_{1}}=\left(\sum _{i=1}^{n}{T}_{{v}_{1}{v}_{i}}\right) $ | (4) |
$ L{T}_{{v}_{1}}=\frac{{T}_{{v}_{1}}}{n} $ | (5) |
其中,
尽管节点的局部信任度可以反映出其在本地网络中的影响力大小, 但并不能代表它在整个网络中的重要性程度. 目前大多的信任模型通过计算节点在本地网络中与相连邻居节点集的信任度大小来评价节点的影响力, 但是这种方法可能会导致由于节点的邻居节点较少使得尽管节点在本地网络中的信任度很高, 但是在整个网络中却并没有相应的影响力. 针对这一问题, 我们利用Beta信誉模型来解决.
Beta信誉模型是一种结合用户对目标给出的反馈来计算用户信誉值的基于Beta分布的概率密度函数[29]. 该模型被用来表述无线通信节点之间网络安全模型, 而移动社会网络是社会网络和移动通信网络结合形成的交叉网络所以在本文的背景下也同样适用. 如果令
$ \left.\varphi \left(p\mid {r}_{T}, {s}_{T}\right)\right)=\frac{\varGamma \left({r}_{T}+{s}_{T}+2\right)}{\varGamma \left({r}_{T}+1\right)\varGamma \left({s}_{T}+1\right)}{p}^{{r}_{T}}(1-p{)}^{{s}_{T}} $ | (6) |
那么信誉值的期望为:
$ E\left(\varphi \left(p\mid {r}_{T}, {s}_{T}\right)\right)=\frac{{r}_{T}+1}{{r}_{T}+{s}_{T}+1} $ | (7) |
此时, 实体信誉值的大小可以用其信誉值的期望来表示. 在移动社会网络中, 度更大的节点能够将自己的信息传播到更多的节点上, 则其在整个网络中具有更高的信誉度, 根据式(4)和式(7)我们得到下列公式. 我们基于节点局部信任度的计算得出节点在网络中的全局信任度:
$ G{T}_{{v}_{1}}=\frac{{d}_{{v}_{1}}}{D}\left({T}_{{v}_{1}}\right) $ | (8) |
其中,
实验数据集来源是斯坦福大学Facebook网络(
实验利用SI传染病模型来模拟现实中传播的影响, 并选取度中心性(DC), 介数中心性(BC), PageRank算法(PR)以及紧密度中心性(CC)[30]4个标志性算法与本文提出的方案进行实验对比, 表2–表6中列出了每个算法所选取的前10节点.
表7展示了各个算法与GTM得到的前10个影响力节点的交集情况.
本文算法时间复杂度如下:
(1)在计算局部信任度时复杂度为
(2)在计算全局信任度时复杂度为
(3)在选择最大影响力节点时复杂度为
表8列出GTM与另外4个算法的时间复杂度对比, 从表中可以看出GTM相比其他算法具有更低的时间复杂度.
SI 模型[31]是经典的传染病传播模型, 用来模拟那些感染后不能治愈的疾病在网络中的传播情况. 在SI 模型中, 人群数量的总和不变, 把人群划分为易感染者(susceptible, S)和感染者(infected, I)两类, 其中S用来表示还未被感染的人, I用来表示已被感染的人. 我们选取每个算法所得的前5个最大影响力节点作为初始影响力节点, 将其状态设置为I, 根据这些算法选出来的影响力节点在网络中的影响传播能力进行比较可以发现, 我们方案的节点在网络中具有不错的传播能力.
考虑到真实网络中人们的交互依赖于相互间的信任度, 人们对信任度较大的人所提出的意见会更容易接纳, 也更有力于信息的传播, 而信任度较小的人意见并不能被很好地传播. 即若一个节点局部信任度较大可以很好地将信息传播给邻居节点, 而信任度较小的节点只能够接受信息而不能够传播信息. 所以我们选取网络中节点局部信任度的均值作为两节点间是否有信息传播的阈值
4 总结
用户影响力分析依然是移动社会网络领域中的一个重要研究方向, 不仅涉及网络自身的拓扑性质还与社会属性息息相关. 本文考虑了节点间信任度的影响, 建立全局信任模型计算节点的局部信任度, 并利用Beta信誉模型从局部信任度得到节点的全局信任度, 根据全局信任度大小评估节点在网络中的影响力大小. 本文从局部的角度出发计算节点在本地网络中的信任度大小从而减少了计算开销, 并在局部信任度的基础上考虑了节点在整个网络中的信誉值, 将两者相结合得到节点在网络中的全局信任度大小. 方案既保证了算法的较低时间复杂度也保证了能得到节点在整个网络中的信任度的大小. 本文在真实的网络数据集上对该模型与经典影响力算法进行实验对比, 结果表明, 本文提出的全局信任模型不仅具有更低的时间复杂度, 并且在保证节点高可信度与合理精确度的同时也具有良好的影响传播能力.
[1] |
Banerjee S, Jenamani M, Pratihar DK. A survey on influence maximization in a social network. Knowledge and Information Systems, 2020, 62(9): 3417-3455. DOI:10.1007/s10115-020-01461-4 |
[2] |
Liang XH, Zhang K, Shen XM, et al. Security and privacy in mobile social networks: Challenges and solutions. IEEE Wireless Communications, 2014, 21(1): 33-41. DOI:10.1109/MWC.2014.6757895 |
[3] |
Kayastha N, Niyato D, Wang P, et al. Applications, architectures, and protocol design issues for mobile social networks: A survey. Proceedings of the IEEE, 2011, 99(12): 2130-2158. DOI:10.1109/JPROC.2011.2169033 |
[4] |
Dong ZB, Song GJ, Xie KQ, et al. An experimental study of large-scale mobile social network. Proceedings of the 18th International Conference on World Wide Web. New York: ACM, 2009. 1175–1176.
|
[5] |
Pietilänen AK, Diot C. Dissemination in opportunistic social networks: The role of temporal communities. Proceedings of the 13th ACM International Symposium on Mobile Ad Hoc Networking and Computing. New York: ACM, 2012. 165–174.
|
[6] |
Freeman LC. Centrality in social networks conceptual clarification. Social Networks, 1978, 1(3): 215-239. DOI:10.1016/0378-8733(78)90021-7 |
[7] |
Freeman LC. A set of measures of centrality based on betweenness. Sociometry, 1977, 40(1): 35-41. DOI:10.2307/3033543 |
[8] |
Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bringing order to the Web. Stanford: Stanford InfoLab, 1998.
|
[9] |
陆晓野, 陈玮. 基于社区的关键节点挖掘算法. 计算机系统应用, 2012, 21(4): 250-253, 197. DOI:10.3969/j.issn.1003-3254.2012.04.057 |
[10] |
张宪立, 唐建新, 曹来成. 基于反向PageRank的影响力最大化算法. 计算机应用, 2020, 40(1): 96-102. |
[11] |
Kitsak M, Gallos LK, Havlin S, et al. Identification of influential spreaders in complex networks. Nature Physics, 2010, 6(11): 888-893. DOI:10.1038/nphys1746 |
[12] |
Dorogovtsev SN, Goltsev AV, Mendes JFF. K-core organization of complex networks. Physical Review Letters, 2006, 96(4): 040601. DOI:10.1103/PhysRevLett.96.040601 |
[13] |
Morone F, Makse HA. Influence maximization in complex networks through optimal percolation. Nature, 2015, 524(7563): 65-68. DOI:10.1038/nature14604 |
[14] |
宋甲秀, 杨晓翠, 张曦煌. 复杂网络中Top-k影响力节点的识别算法. 计算机科学与探索, 2018, 12(6): 928-939. DOI:10.3778/j.issn.1673-9418.1711065 |
[15] |
康玲, 项冰冰, 翟素兰, 等. 基于区域密度曲线识别网络上的多影响力节点. 物理学报, 2018, 67(19): 198901. DOI:10.7498/aps.67.20181000 |
[16] |
杨书新, 梁文, 朱凯丽. 基于三级邻居的复杂网络节点影响力度量方法. 电子与信息学报, 2020, 42(5): 1140-1148. DOI:10.11999/JEIT190440 |
[17] |
Kempe D, Kleinberg J, Tardos É. Maximizing the spread of influence through a social network. Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2003. 137–146.
|
[18] |
Leskovec J, Krause A, Guestrin C, et al. Cost-effective outbreak detection in networks. Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2007. 420–429.
|
[19] |
Kim J, Kim SK, Yu H. Scalable and parallelizable processing of influence maximization for large-scale social networks. Proceedings of the 2013 IEEE 29th International Conference on Data Engineering. Brisbane: IEEE, 2013. 266–277.
|
[20] |
Kianian S, Rostamnia M. An efficient path-based approach for influence maximization in social networks. Expert Systems with Applications, 2021, 167: 114168. DOI:10.1016/j.eswa.2020.114168 |
[21] |
李国良, 楚娅萍, 冯建华, 等. 多社交网络的影响力最大化分析. 计算机学报, 2016, 39(4): 643-656. DOI:10.11897/SP.J.1016.2016.00643 |
[22] |
Asim Y, Malik AK, Raza B, et al. A trust model for analysis of trust, influence and their relationship in social network communities. Telematics and Informatics, 2019, 36: 94-116. DOI:10.1016/j.tele.2018.11.008 |
[23] |
Priayoheswari B, Kulothungan K, Kannan A. Beta reputation and direct trust model for secure communication in wireless sensor networks. Proceedings of the International Conference on Informatics and Analytics. New York: ACM, 2016. 1–5.
|
[24] |
Baek S, Kim S. Trust-based access control model from sociological approach in dynamic online social network environment. The Scientific World Journal, 2014, 2014: 936319. |
[25] |
Golbeck J. Trust and nuanced profile similarity in online social networks. ACM Transactions on the Web, 2009, 3(4): 1-33. |
[26] |
Eggers JJ, BaUml R, Tzschoppe R, et al. Scalar costa scheme for information embedding. IEEE Transactions on Signal Processing, 2003, 51(4): 1003-1019. DOI:10.1109/TSP.2003.809366 |
[27] |
Lo S, Lin C. WMR—A graph-based algorithm for friend recommendation. Proceedings of the 2006 IEEE/WIC/ACM International Conference on Web Intelligence. Hong Kong: IEEE, 2007. 121–128.
|
[28] |
Jaccard P. The distribution of the flora in the alpine zone. New Phytologist, 1912, 11(2): 37-50. DOI:10.1111/j.1469-8137.1912.tb05611.x |
[29] |
马立川. 群智协同网络中的信任管理机制研究[博士学位论文]. 西安: 西安电子科技大学, 2018.
|
[30] |
Sabidussi G. The centrality index of a graph. Psychometrika, 1966, 31(4): 581-603. DOI:10.1007/BF02289527 |
[31] |
Li JQ, Zhou YC, Wu JH, et al. Complex dynamics of a simple epidemic model with a nonlinear incidence. Discrete & Continuous Dynamical Systems-B, 2007, 8(1): 161-173. |