2. 贵州大学 贵州省公共大数据重点实验室, 贵阳 550025
2. Guizhou Provincial Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, China
随着移动互联网与大数据的发展, 数据规模也以前所未有的速度不断增长, 数据属性之间的相互关系变得复杂多样, 多维数据已是一种常见的数据发布类型[1]. 在实际应用中, 大量的多维数据被存储在多个分布式组织中, 进行集成后, 这些多维数据将成为做出更好决策和提供高质量服务的宝贵资源.由于数据挖掘和分析技术的提升, 发布多维数据会带来很高的信息价值, 但多维数据中常包含许多隐私信息, 为了保护这些隐私信息在数据发布的过程中不被泄露, 通常会使用差分隐私保护技术. 传统的差分隐私技术将原始数据集中到一个中心服务器, 然后发布满足差分隐私的信息, 通常称其为中心化差分隐私保护(CDP). 因此中心化差分隐私技术始终基于一个可信的第三方数据收集者并保证不会窃取或泄露用户的敏感信息的前提. 然而想要找到一个真正可信的第三方数据收集者是非常困难的. 鉴此, 在缺少可信的第三方数据收集者的情况下, 本地化差分隐私(LDP)[2-4]应运而生, 目前已在业界得到应用. 但多数的本地化差分隐私技术不适用于多维数据, 若直接将其应用于多维数据会造成通信开销较大, 可用性差等问题.
目前, 本地化差分隐私技术已经成为继中心化差分隐私技术之后一种强健的隐私保护模型. 首先, 用户对原始数据进行满足
为解决数据收集阶段的隐私泄露, 本地化差分隐私保护通信开销较大以及数据收集者求精处理的问题, 本文提出了RR-LDP算法和LREMH算法, 主要工作如下:
(1) 提出了一个适用于多维数据的本地差分隐私保护算法(RR-LDP). 该算法相比直接将RAPPOR[8]应用于多维数据上极大地降低了通信开销.
(2) 结合期望最大化(EM)算法和LASSO回归模型, 提出了一种高效的多维数据联合分布估计混合算法(LREMH). 在真实数据集上进行性能评估, 实验结果表明LREMH算法在精度和效率之间取得了平衡.
2 相关工作Erlingsson等人[8]提出RAPPOR应用随机响应技术和布隆过滤器来实现本地化差分隐私, 并应用在谷歌浏览器上. 苹果的差分隐私团队提出使用one-hot编码技术对敏感数据进行编码, 并部署CMS算法分析Safari中最流行的表情符号和媒体播放偏好. 文献[9]通过结合LDP与集中式数据模式, 提出具有高可用性的混合模型BLENDER. 文献[10]针对移动设备收集隐私数据问题, 构建了Harmony系统, 该系统支持满足LDP的统计分析与机器学习功能. 随机响应技术及其变体在收集分布式用户统计数据的安全性方面具有优势, 已成为LDP研究的热点. 但目前多数的LDP机制并不适用于多维且多值的数据.
Giulia等人[11]提出基于EM的学习算法从噪声样本空间中估计联合概率分布. 然而它们的方案适用于二维数据, 当维数较高时, 数据的稀疏性会导致很大的效用损失, EM算法的复杂度也会呈指数级上升. Ren等人[12]打破了文献[11] EM算法的局限, 将其拓展用于处理多维数据. Li等人[13]提出使用Copula函数来模拟多维数据的联合分布, 但Copula函数不能处理小域的属性. Cormode等人[14]将Hadamard变换应用于发布本地边缘表, 其优势是节省了通信开销, 但只适用于二进制数据. Zhang等人[15]借鉴PriView[16]的思想提出CLMA方法, 该方法可以在不计算满边际的情况下释放任意方向的边缘表, 并且可以处理非二进制属性. 然而, 除了隐私保护带来的噪声误差外还引入了采样误差.
3 基础知识 3.1 本地化差分隐私(LDP)定义1.
$ P[Q({X_1}) = {X^*}] \leqslant {e^\varepsilon }P[Q({X_2}) = {X^*}] $ | (1) |
其中, 概率
性质1. 序列组合性[17]. 给定数据集
随机响应技术(randomized response) 是本地化差分隐私保护的主流扰动机制, 旨在调查过程中使用随机化装置, 使被调查者以一个预定的概率
$\left\{ \begin{array}{l} Pr[{x}_{i}={\text{``}}\text{Yes}\text{"}]=\pi \cdot p+(1-\pi )\cdot (1-p)\\ Pr[{x}_{i}=\text{``}\text{No}\text{"}]=(1-\pi )\cdot p+\pi \cdot (1-p) \end{array} \right.$ | (2) |
为了得到无偏估计, 可以采用极大似然的方法进行估计:
$ L = {[\pi \cdot p + (1 - \pi ) \cdot (1 - p)]^{{n_1}}} \cdot {[(1 - \pi ) \cdot p + \pi \cdot (1 - p)]^{n - {n_1}}} $ | (3) |
然后可以求得
$ \tilde \pi = \frac{{p - 1}}{{2p - 1}} + \frac{{{n_1}}}{{\left( {2p - 1} \right)n}} $ | (4) |
则患病的人数
$ \tilde n = n \cdot \tilde \pi = \frac{{p - 1}}{{2p - 1}}n + \frac{{{n_1}}}{{\left( {2p - 1} \right)}} $ | (5) |
首先, 根据属性域的大小和每个取值在属性域中的位置将所有变量映射为位串, 得到的位串代表了唯一的原始记录. 然后, 通过随机响应技术进行第一次扰动, 得到的结果称作永久随机响应, 并将其保存在用户本地, 在第三方数据收集者请求数据时, 对永久随机响应的结果再做一次扰动, 得到的结果称作瞬时随机响应, 将瞬时随机响应的结果发送给第三方数据收集者. 最后, 数据收集者聚合收集到的得到随机噪声样本空间, 利用机器学习技术, 可以从中估计联合概率分布, 进行求精处理.
本文所使用的相关符号定义如表1所示.
4.2 本地差分隐私保护
在本文的本地化差分隐私保护机制设计如算法1所示, 其中包含3个关键的步骤.
算法1. RR-LDP算法
输入: 用户数据记{
输出: 随机翻转后的位串
1. for
2. 根据取值将
3. 根据
4. end for
5. 对
6. 将翻转后的每个位串连接起来得到一个
(1) 假设第
(2) 位串
$ \hat s_j^i[b] = \left\{ \begin{gathered} s_j^i[b], {\text{ }}概率=1 - f \\ 0, {\text{ }} 概率=f/ 2 \\ 1, {\text{ }} 概率=f/ 2 \\ \end{gathered} \right. $ | (6) |
上述过程为永久随机响应. 永久随机响应可以保证用户端相互通信时的隐私安全问题, 抵御纵向攻击. 由于每条记录中所有属性的取值是独立的, 故所得到 的二进制位串可唯一代表一条记录.
(3) 初始化一个长度为
$ P(T_j^i[b] = 1) = \left\{ \begin{gathered} p, {\text{ if }}\hat s_j^i[b] = 0 \\ q, {\text{ if }}\hat s_j^i[b] = 1 \\ \end{gathered} \right. $ | (7) |
其中,
用户
$ T_{}^i = \left[ {T_1^i[1], \cdots, T_1^i[\left| {{\Omega _1}} \right|]|\cdots|T_d^i[1], \cdots, T_d^i[\left| {{\Omega _d}} \right|]} \right] $ |
根据文献[8]的计算可以得到当
$ q^* = P(T_j^i[b] = 1|s_j^i[b] = 1) = 0.5f(p + q) + (1 - f)q $ | (8) |
当
$ p^* = P(T_j^i[b] = 1|s_j^i[b] = 0) = 0.5f(p + q) + (1 - f)p $ | (9) |
由于服务器每次请求数据时都要做一次瞬时随机响应, 所以服务此每次请求相同的数据得到的结果都是不同的, 此时就可以保证服务器不能通过多次请求数据进行推断攻击.
在本文的RR-LDP方案采用一元编码的方式进行二进制转换, 相比于RAPPOR[8]所使用布隆过滤器进行二进制转化的方法, 本文映射后的位串长度更小且由于布隆过滤器使用哈希函数进行映射会出现哈希冲突造成映射后的位串冲突, 而RR-LDP则不会.
通信开销对比: 假设所有属性的值域都是公开的, 则RR-LDP的通信开销最小为
定理1. 在用户端进行的永久随机响应过程满足
$ {\varepsilon _1} = 2d\ln ((2 - f)/f) $ | (10) |
证明: 令
定理2. 在用户端进行的瞬时随机响应过程满足
$ {\varepsilon _2} = \log \left(\frac{{q^*(1 - p^*)}}{{p^*(1 - q^*)}}\right) $ | (11) |
证明过程与定理1类似, 详见文献[8]. 因为相同的转换是由所有用户独立完成的, 所以上述本地化差分隐私保护适用于所有分布式用户.
4.4 基于期望最大化算法(EM)的联合分布估计算法EM算法是在存在缺失或不完整数据的情况下获得最大似然估计的常用方法. 它特别适合于RAPPOR[8]这种只收集它们的噪声表示且真实值未知的应用中. 文献[12]中的EM算法主要分为以下3步:
第1步: 初始化,
第2步: 更新, 根据式(6)得到原始位串的每一位
第3步: 迭代, 得到后验概率后, 通过计算后验概率的平均值来更新先验概率. 在下一次迭代中利用更新后的先验概率计算后验概率. 用上述方法进行迭代直至收敛,
其中
EM算法具有较高的精度, 但对初始值比较敏感, 当初始值选择合适时, 上述方法能达到较好的收敛效果. 然而文献[12]将联合分布初始化为均匀分布, 显然不是最优的, 当属性个数
LASSO回归最早由Tibshirani于1996年提出[18], 文献[8]将它和最小二乘法用于收到噪声样本后的解码工作. 如第4.1节所述, 位串是原始记录的唯一代表. 随机翻转后, 本地用户会产生大量不同程度的噪声样本. 此时, 可以利用
第1步: 在服务器接收到所有经过随机翻转的位串后, 对其值为1的位进行计数, 记为
第2步: 根据随机翻转概率
第3步: 假设在域
第4步: 对响应向量
基于EM的算法在样本足够的情况下, 可以表现出良好的收敛性, 但也会产生很高的复杂度. 其高复杂度是因为它迭代扫描用户的数据, 并构建一个先验分布表, 其大小为
为了在精度和效率之间取得平衡, 本文提出了LREMH算法, 该算法首先用基于LASSO回归的方法估计初始值, 这样得到的初始值会比均匀分布的初始值更加精确, 同时对基于EM算法的收敛性有积极的改进作用, 然后根据LASSO回归模型计算出冗余候选项, 并消除他们, 从而提高计算效率, 最后使用EM算法进行迭代计算得到一个较为准确的估计值.
算法2. LREMH算法
输入:
输出:
1. for each
2. for each b=1, 2,
3. 计算
4. 计算
5. end for
6. end for
7. 令
8. 令
9. 计算
10. 返回
11. 令
12. for each
13. for each
14. for each b=1,
15. if
16. 计算
17. else
18. 计算
19. end if
20. end for
21. end for
22. if
23.
24. else
25. 计算
26. end if
27. end for
28. 初始化 t=0 /*迭代次数*/
29. repeat
30. for each
31. for each
32.
33. end for
34. end for
35. 令
36. 更新t=t+1
37. 直到
38. 返回
本文提出的LREMH算法主要包含以下3个步骤:
第1步: 计算初始值, 根据永久随机响应翻转概率
第2步: 消除冗余项, 利用基于LASSO回归的联合分布估计方法得到联合分布为0的属性并消除他们(第11, 22–23行).
第3步: 更新迭代, 根据永久随机响应翻转概率
上述LREMH算法具有两个优势:
(1) 回归分析能够非常有效地选择稀疏的候选项. 因此, EM算法可以只计算这些稀疏候选项上的条件概率, 而不是所有候选项上的条件概率, 从而降低了时间和空间复杂度.
(2) EM算法对初值比较敏感, 尤其是在候选空间稀疏的情况下. 回归分析可以对联合分布产生较好的初始估计. 相对于均匀赋值的初值, 使用回归分析生成的初值可以进一步加快EM算法的收敛速度.
4.7 满足本地化差分隐私证明证明. 在LREMH算法中, 所有的输入数据的都是经过RR-LDP算法处理后的数据, 且LREMH算法的整个流程中没有任何操作引入其他隐私保护和随机扰动, RR-LDP算法的永久随机响应和瞬时随机响应根据定理1和定理2证得分别满足
实验中使用了两个真实数据集, NLTCS和Adult. NLTCS数据集来自美国护理调查中心, 包含21 574名残疾人不同时间段的活动. 成人数据集来自1994年美国人口普查, 包含45 222个居民的个人信息, 如性别、工资和教育水平. 在预处理中对一些连续域进行了离散化处理并删除了一些缺省值.
实验中所使用的软硬件参数如下:
(1) 操作系统: Windows 10;
(2) 硬件参数: IntelCore i5, 2.0 GHz CPU, 4 GB;
(3) 编译环境及工具: Python 2.7, PyCharm.
本文分别从数据集NLTCS和数据集Adult中采样了20%的数据和10%的数据. 算法的效率是通过计算估计时间和估计的精度来衡量的. 每组实验运行10次, 并报告平均运行时间. 为了测量精度, 本文使用了两个数据集上的平均变异距离(AVD)来量化估计的联合分布
$ Dis{t_{AVD}}(P, Q) = 0.5{\Sigma _{\omega \in \Omega }}|P(\omega ) - Q(\omega )| $ | (12) |
为了快速收敛, 将收敛间隙设置为0.001, 在瞬时响应中通常取 q=0.75, p=0.5.
5.2 安全性分析根据第4.7节的结论, LREMH算法是满足
(1) NLTCS数据集: 如图1, 对于任一维度
(2) Adult数据集: 如图2, EM算法在低维
5.4 估计精度对比
(1) NLTCS数据集: 如图3, 当
(2) Adult数据集: 如图4, 当
根据图1, 图2可以看出LREMH算法的估计效率随着属性维度和
并且由于
6 总结与展望
多维数据的联合概率分布估计对于数据发布具有重要作用, 本文提出的LREMH算法在满足本地化差分隐私的情况下, 结合期望最大化算法和回归分析方法消除冗余候选项, 用回归分析估计初始联合分布, 然后用期望最大化算法进行迭代计算, 直至收敛. 通过实验验证LREMH算法在精度和效率之间取得了平衡. 下一步工作将会围绕如何学习到与原始数据最为拟合的概率图模型, 如何进一步提高发布数据的可用性等方面的问题进行研究.
[1] |
马苏杭, 龙士工, 刘海, 等. 面向高维数据发布的个性化差分隐私算法. 计算机系统应用, 2021, 30(4): 131-138. DOI:10.15888/j.cnki.csa.007870 |
[2] |
Chen R, Li HR, Qin AK, et al. Private spatial data aggregation in the local setting. 2016 IEEE 32nd International Conference on Data Engineering (ICDE). Helsinki: IEEE, 2016. 289–300.
|
[3] |
Duchi JC, Jordan MI, Wainwright MJ. Local privacy and statistical minimax rates. 2013 51st Annual Allerton Conference on Communication, Control, and Computing (Allerton). Monticello: IEEE, 2013. 1592–1592.
|
[4] |
Kairouz P, Oh S, Viswanath P. Extremal mechanisms for local differential privacy. Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: ACM, 2014. 2879–2887.
|
[5] |
Ye M, Barg A. Optimal schemes for discrete distribution estimation under locally differential privacy. IEEE Transactions on Information Theory, 2018, 64(8): 5662-5676. DOI:10.1109/TIT.2018.2809790 |
[6] |
Nie YW, Wang SW, Yang W, et al. Classification learning from private data in heterogeneous settings. 23rd International Conference on Database Systems for Advanced Applications. Gold Coast: Springer, 2018. 577–585.
|
[7] |
Yilmaz E, Al-Rubaie M, Chang JM. Locally differentially private naive Bayes classification. arXiv: 1905.01039, 2019.
|
[8] |
Erlingsson Ú, Pihur V, Korolova A. Rappor: Randomized aggregatable privacy-preserving ordinal response. Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security. Scottsdale: ACM, 2014. 1054–1067.
|
[9] |
Avent B, Korolova A, Zeber D, et al. Blender: Enabling local search with a hybrid differential privacy model. Proceedings of the 26th USENIX Security Symposium. Vancouver: USENIX, 2017. 747–764.
|
[10] |
Nguyên TT, Xiao XK, Yang Y, et al. Collecting and analyzing data from smart device users with local differential privacy. arXiv: 1606.05053, 2016.
|
[11] |
Giulia F, Vasyl P, Úlfar E. Building a rappor with the unknown: Privacy-preserving learning of associations and data dictionaries. Proceedings on Privacy Enhancing Technologies, 2016, 2016(3): 41-61. DOI:10.1515/popets-2016-0015 |
[12] |
Ren XB, Yu CM, Yu WR, et al. LoPub: High-dimensional crowdsourced data publication with local differential privacy. IEEE Transactions on Information Forensics and Security, 2018, 13(9): 2151-2166. DOI:10.1109/TIFS.2018.2812146 |
[13] |
Li HR, Xiong L, Jiang XQ. Differentially private synthesization of multi-dimensional data using copula functions. Advances in Database Technology: Proceedings. International Conference on Extending Database Technology, 2014, 2014: 475-486. DOI:10.5441/002/edbt.2014.43 |
[14] |
Cormode G, Kulkarni T, Srivastava D. Marginal release under local differential privacy. Proceedings of the 2018 International Conference on Management of Data. Houston: ACM, 2018. 131–146.
|
[15] |
Zhang ZK, Wang TH, Li NH, et al. CALM: Consistent adaptive local marginal for marginal release under local differential privacy. Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications Security. Toronto: ACM, 2018. 212–229.
|
[16] |
Qardaji W, Yang WN, Li NH. Priview: Practical differentially private release of marginal contingency tables. Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data. Snowbird: Association for Computing Machinery, 2014. 1435–1446.
|
[17] |
McSherry F. Privacy integrated queries: An extensible platform for privacy-preserving data analysis. Communi-cations of the ACM, 2010, 53(9): 89-97. DOI:10.1145/1810891.1810916 |
[18] |
Tibshirani R. Regression shrinkage and selection via the LASSO. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58(1): 267–288.
|