2. 贵州大学 贵州省公共大数重点实验室, 贵阳 550025
2. Guizhou Provincial Key Laboratory of Public Big Data, Guizhou University, Guiyang 550025, China
随着移动互联网的发展, 数据规模也以前所未有的速度不断增长, 数据属性之间的相互关系变得复杂多样, 高维数据已是一种常见的数据发布类型. 随着数据挖掘和分析技术的发展, 高维数据的发布具有更高的信息价值, 但高维数据中通常包含大量隐私信息, 如果使用不当将造成隐私泄露[1, 2]. 为了保证高维数据发布过程中不会泄露隐私信息, 在发布之前使用差分隐私[3, 4]保护技术进行处理. 如果直接对高维数据进行差分隐私处理, 存在添加噪音过多, 数据可用性差等问题. 其中差分隐私预算的分配方式直接影响数据的可用性与安全性关系, 而不同数据机构对于发布数据集安全性和可用性之间的关系需求各不相同, 数据保护级别更高的数据机构更注重数据的安全性; 而主要提供数据进行应用的数据机构则更倾向于数据的可用性.
目前已有的面向高维数据发布的差分隐私算法有概率图模型[5-7]、阈值过滤技术[8]以及投影技术[9], 这些技术通过维度转换达到降维效果, 减少噪音添加对数据可用性的影响. 降维效果的好坏直接影响数据的可用性, 而阈值过滤技术和投影技术忽略了高维属性之间普遍存在依赖关系, 采用直接截断的降维方法, 大大降低了数据的可用性. 文献[5-7]利用指数机制[3, 10]挑选属性关系对, 受候选空间大小和隐私预算分配方式的影响, 空间越大挑选的属性关系对越不准确. 同时, 单一的隐私预算分配方式为敏感性不同的属性数据分配相同的隐私预算, 导致隐私预算无法根据数据可用性与安全性的个性化需求合理分配, 存在隐私浪费的问题.
基于在高维数据发布过程中, 数据安全性与可用性受降维算法效果和隐私预算分配方式的影响, 为满足发布数据集安全性与可用性的个性化需求, 本文提出个性化隐私预算分配(Personnalized Privacy Budget Allocation, PPBA)算法, 主要内容如下.
(1)对基于概率图模型的贝叶斯网络算法进行优化, 引入最大支撑树和最大权重值, 减少指数机制挑选属性关系对的搜索空间, 避免敌手进行多次查询对比分析, 泄露隐私信息. 提高数据可用性和安全性.
(2)依据动态权重值确定贝叶斯网络中低维属性集合敏感性由大到小的排序. 受文献[11-13]启发, 根据不同用户数据可用性与安全性需要, 个性化设置隐私预算分配比值常数
(3)理论证明所提出的PPBA算法满足
数据独立发布算法和数据相关发布算法是主要的2类面向高维数据发布的差分隐私算法. 独立发布算法的典型代表是PriVew[14],该算法假设所有属性都是相互独立的,这在真实数据集中是不存在的, 且缺少正式的推理机制. 而PrivBayes算法[5]、加权贝叶斯网络算法[6]、联合树算法[7]是典型的数据相关发布算法.
PrivBayes算法利用指数机制挑选属性关系对形成贝叶斯网络, 对联合分布概率进行推理, 存在候选空间较大, 数据可用性和安全性得不到保障的问题. 文献[6]对贝叶斯网络进行优化, 利用最大权重值提高贝叶斯网络推理的准确性, 但仍然存在挑选属性关系对候选空间较大的问题. 文献[7]通过指数机制构造Markov网, 引入高通滤波技术缩减指数机制搜索空间. 并结合相应的后置技术对Markov网分割来获得完全团图, 生成满足差分隐私的联合树, 利用联合树中各个团后置处理之后的联合分布表合成最终的高维数据. 文献[5-7]在高维数据相关发布得到广泛的应用, 但在面对不同数据机构对于数据安全性与可用性的个性化需求, 缺少个性化的隐私预算分配策略.
针对不同数据类型关于隐私预算分配问题, 为了兼顾数据安全性与可用性的效率, 文献[11]以差分隐私保护结合主流决策树分类方法, 提出等差分配隐私预算的方式, 改善决策树的分类准确率. 文献[12]针对树索引结构提出等差数列分配和等比数列分配两种方式. 避免对树的某一层分配过小, 数据可用性过低; 分配过大, 不能对这层数据提供足够安全保障的问题.
3 基础知识本节内容主要对面向高维数据发布的个性化差分隐私算法所使用的贝叶斯网络、差分隐私概念进行说明.
3.1 贝叶斯网络文章在论述过程中涉及较多数学符号, 为了更好地对下文相关内容进行解释, 给出相关符号定义, 如表1所示.
定义1. 贝叶斯网络. 贝叶斯网络
通过挑选属性间的依赖关系, 实现高维数据的维度转换, 构建贝叶斯网络进行联合分布的推理. 通过例子解释说明, 高维数据集属性集合为
$\begin{split} \Pr [Ar_1] =& \Pr [A] * \Pr [B|A] * \Pr [C|A,B]\\ & * \Pr [D|A,B,C] \end{split}$ | (1) |
若在属性依赖关系的挑选中使用最大父节点个数值即度值为2的贝叶斯网络算法对该数据集进行处理, 形成如图1所示4个属性字段节点构成的2度贝叶斯网络图.
则该贝叶斯网络用4个相对独立的低维属性集合
$\begin{split} {{{\Pr }_N}[A{r_1}]} = &\Pr [A]*\Pr [B|A]*\Pr [C|A,B]\\ &{*\Pr [D|A,C]} \end{split}$ | (2) |
未进行维度转化处理之前该数据集属性之间存在6种属性关系, 当使用2度贝叶斯网络算法之后降低到5种属性关系.
差分隐私保护技术通过向原始数据集添加满足差分隐私的噪音生成邻近数据集, 使得原始数据集与邻近数据集在查询输出中具有概率不可区分性.
定义2.
${\rm{Pr}}[A\left( {{D_1}} \right) \in S] \le {e^\varepsilon }{\rm{Pr}}[A({D_2}) \in S]$ | (3) |
其中,
定义3. 敏感度[10]. 敏感度是由函数本身决定的, 不同函数具有不同的敏感度, 敏感度过低会使发布数据集的安全性得不到保障, 敏感度过高则使发布数据集的发布结果实用性降低.
给定F是将一个数据集映射到一个固定大小实数向量的函数, 那么函数F的敏感度为:
$S(F) = \max {\left\| {F({D_1}) - F({D_2})} \right\|_1}$ | (4) |
其中,
为了在给定的隐私预算内, 将全部隐私预算合理分配到多个相对独立的低维属性集合中, 使整个数据发布过程中满足差分隐私, 可以利用差分隐私的序列组合性质.
性质1. 差分隐私序列组合性[11]. 给定数据集
定义4. 互信息函数. 1948年香农提出信息熵[14]的概念, 属性之间互信息I的大小代表属性之间的关联程度. 高维数据集D属性节点X与Y之间的互信息I如式(5)所示.
$\begin{split} I(X:Y) =& \sum\limits_{x \in dom(X)} {\sum\limits_{y \in dom(Y)} {P(X = x,Y = y)} } \\ & * \log \frac{{P(X = x,Y = y)}}{{P(X = x)P(Y = y)}} \end{split}$ | (5) |
其中, 满足差分隐私的噪音机制主要有指数机制、Laplace机制.
命题1. 基于互信息函数的指数机制. 指数机制[10]主要用于处理输出结果为非数值型结果. 在维度转换过程中, 属性节点的关联程度作为指数机制挑选属性关系对的依据, 打分函数为属性间的互信息函数I, 其中
$\Delta (I(X:Y)) = \frac{2}{n}\log \frac{{n + 1}}{2} + \frac{{n - 1}}{n}\log \frac{{n + 1}}{{n - 1}}$ | (6) |
命题2. 基于联合分布的拉普拉斯机制. 拉普拉斯机制[11]通过Laplace分布产生噪声扰动真实值达到差分隐私保护. 在贝叶斯网络中对多个相对独立的低维属性集合, 计算其联合分布
本节对最大支撑树的定义和构建过程进行解释说明, 通过最大支撑树限制指数机制挑选属性关系对的候选空间.
命题3. 最大支撑树. 利用高维数据属性之间的互信息得到的一种树状网络结构, 通过依次计算两两属性间的互信息, 只保留与该属性具有最大互信息的属性之间的无向边, 完成最大支撑树的建立. 根据最大支撑树减少挑选属性关系对的候选空间, 确定贝叶斯网络度值
算法1. 最大支撑树
输入: Data D
输出:
1. Initialize:
2. ①for
for
Compute
②Select Max
3. Return
根据算法1输出的
本节内容主要对个性化比例分配方法所涉及的敏感性排序和比例分配的计算过程进行解释.
(1)依据动态权重值对低维属性集合进行敏感性排序
在文献[6]中分别给出了
假设图1中各属性
根据动态权重值大小进行排序, 则属性节点的敏感性排序为A、C、B、D.
(2) 个性化比例分配计算
高维数据集经贝叶斯网络处理之后, 将数据集划分为
由图1中属性节点的低维属性集合敏感性由大到小的排序为A、C、B、D. 总隐私预算
由等比数列性质式(7)、式(8):
$\varepsilon = \sum\limits_{i = 1}^d {{\varepsilon _i}} = \frac{{{\varepsilon _1}\left( {1 - {q^d}} \right)}}{{1 - q}};q > 1$ | (7) |
$\varepsilon = \sum\limits_{i = 1}^d {{\varepsilon _1}} d;q = 1$ | (8) |
得:
${\varepsilon _1} = \frac{{\varepsilon (1 - q)}}{{1 - {q^d}}};q > 1$ | (9) |
${\varepsilon _1} = \frac{\varepsilon }{d};q = 1$ | (10) |
${\varepsilon _i} = {\varepsilon _1}{q^{d - 1}};q \ge 1$ | (11) |
取
由以上分析和表3可知, 当给定总的隐私预算和低维属性集合按敏感性由高到低的排序, 用户只需调整
本节描述PPBA算法的具体实现细节如算法2.
算法2. PPBA 算法
输入:
输出:
1. Initialize:
2. Select
3. ① for
② Initialize
③ for 每一个属性字段
④ add
⑤ end for
⑥ 从
⑦ end for
4. Return
5. 依据
6. 根据
7. ① for
② Add
③ return
④ end for
8. Return
PPBA算法主要分为两个部分, 1–4步为算法第一部分, 实现满足
算法第2部分, 合成满足
证明. 在PPBA算法中, 根据命题1和命题2在指数机制挑选属性关系对和对条件分布添加拉普拉斯噪音的过程中由差分隐私序列组合性质[11]分别满足
根据实验测试结果, 对比分析PPBA算法、加权PrivBayes算法、PrivBayes算法的数据可用性、数据安全性与可用性之间个性化平衡需求的实验以及算法时间性能3个方面.
5.1 实验环境实验中, 采用美国UCI (University of California,Irvine)所提供的机器学习库中的成人数据集, 该数据集由美国人口普查数据组成, 共计32561个元组. 在该数据集中一共选取了10个属性字段: Age, Workclass, Educatio, Maritalstatus, Race, Occupation, Relationship, Sex, Native, Country, Income. 在实验之前将数据集划分为测试数据集和训练数据集, 并对数据集做删除缺省值, 属性离散化等数据预处理操作.
实验中所使用的软硬件参数如下:
(1)操作系统: Windows10;
(2)硬件参数: IntelCoreTM I5, 2.4 GHz CPU, 8 GB DDR 内存;
(3)编译环境及工具: Python3.6, Pycharm.
5.2 贝叶斯网络精确度分析贝叶斯网络与原始数据的拟合度直接影响发布数据的可用性. 在贝叶斯网络结构学习中使用K2[15]算法中的评分函数确定网络结构的好坏, 本实验选择K2Score函数分别对3个算法生成的贝叶斯网络进行评分, 评分越高, 贝叶斯网络与原始数据拟合度越高. 其中由于K2函数公式特性计算网络评分值均为负值. 实验分别选取1000、5000、10000、15000、20000、25000、30000大小数据集对比3个算法生成的贝叶斯网络的精确度, 结果如图2所示.
从图2可以看出随着数据集不断增大, PPBA算法生成的贝叶斯网络的精确性高于PrivBayes算法, 原因是随着数据集不断增大, 属性维度之间的依赖关系越来越复杂, 相较于加权PrivBayes算法和PrivBayes算法, PPBA算法利用最大支撑树, 将指数机制属性关系对的挑选空间控制在较优的范围, 提高贝叶斯网络的精确度, 在数据集不断增大, 属性关系越来越复杂的情况下, 优势更为明显.
5.3 个性化分配隐私预算下数据可用性与数据安全性分析PPBA算法将实验数据集低维属性集合按敏感性由大到小排序, 取q值大小分别为1.0、1.2、1.3、1.5、1.6、1.8、2.0. 观察取不同q值下, 将
发布数据集所需的可用性与安全性之间的个性化平衡是衡量隐私预算分配优劣极重要指标. 选取训练数据集大小分别为1000、5000、10000、15000、20000、25000、30000的数据, 使用加权PrivBayes (
5.4 时间性能对比分析
在实验中, 将PPBA隐私保护算法(
6 总结与展望
面向高维数据隐私发布, 不同数据发布用户对于数据安全性和可用性的个性化需求, 本文提出个性化差分隐私预算分配算法(PPBA), 通过最大权重值和最大支撑树, 降低属性关系对的挑选空间, 构建更优的贝叶斯网络, 按照高维数据隐私保护强度和数据可用性间的平衡需要, 个性化设置比例常数
[1] |
Palanisamy B, Li C, Krishnamurthy P. Group privacy-aware disclosure of association graph data. Proceedings of 2017 IEEE International Conference on Big Data. Boston, MA, USA. 2017. 1043–1052.
|
[2] |
Zhou J, Dong XL, Cao ZF. Research advances on privacy preserving in recommender systems. Computer Research and Development, 2019, 56(10): 2033-2048. |
[3] |
Dwork C. Differential privacy: A survey of results. Proceedings of the 5th International Conference on Theory and Applications of Models of Computation. Xi’an, China. 2008. 1–19.
|
[4] |
Xin BZ, Yang W, Geng YY, et al. Private FL-GAN: Differential privacy synthetic data generation based on federated learning. Proceedings of 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona, Spain. 2020. 2927–2931.
|
[5] |
Zhang J, Cormode G, Procopiuc CM, et al. PrivBayes: Private data release via Bayesian networks. Proceedings of 2014 ACM SIGMOD International Conference on Management of Data. Snowbird, UT, USA. 2014. 1423–1434.
|
[6] |
王良, 王伟平, 孟丹. 基于加权贝叶斯网络的隐私数据发布方法. 计算机研究与发展, 2016, 53(10): 2342-2352. |
[7] |
张啸剑, 陈莉, 金凯忠, 等. 基于联合树的隐私高维数据发布方法. 计算机研究与发展, 2018, 55(12): 2794-2809. DOI:10.7544/issn1000-1239.2018.20170756 |
[8] |
Wang D, Xu JH. Differentially private high dimensional sparse covariance matrix estimation. arXiv: 1901.06413, 2019.
|
[9] |
Xu CG, Ren J, Zhang YX, et al. DPPro: Differentially private high-dimensional data release via random projection. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 3081-3093. DOI:10.1109/TIFS.2017.2737966 |
[10] |
李效光, 李晖, 李凤华, 等. 差分隐私综述. 信息安全学报, 2018, 3(5): 92-104. |
[11] |
尚涛, 赵铮, 舒王伟, 等. 基于等差隐私预算分配的大数据决策树算法. 工程科学与技术, 2019, 51(2): 130-136. |
[12] |
汪小寒, 韩慧慧, 张泽培, 等. 树索引数据差分隐私预算分配方法. 计算机应用, 2018, 38(7): 1960-1966. |
[13] |
陈旋, 刘健, 冯新淇, 等. 基于朴素贝叶斯的差分隐私合成数据集发布算法. 计算机科学, 2015, 42(1): 236-238. DOI:10.11896/j.issn.1002-137X.2015.01.052 |
[14] |
李燕. 基于香农熵和互信息的主题优化方法的研究[硕士学位论文]. 大连: 大连海事大学, 2017.
|
[15] |
李淑智, 刘弹, 张熠卓, 等. 贝叶斯网络结构评分函数研究. 2010年全国模式识别学术会议(CCPR2010)论文集. 重庆, 中国. 2010.
|
[16] |
Juan ROS, Kim J. Photovoltaic cell defect detection model based-on extracted electroluminescence images using SVM classifier. Proceedings of 2020 International Conference on Artificial Intelligence in Information and Communication (ICAIIC). Fukuoka, Japan. 2020. 578–582.
|