基于混合数据类型相关性度量的非正态数据合成
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

国家自然科学基金联合基金(U1536122); 天津市科委重大专项(15ZXDSGX00030)


Non-normal Data Synthesis Based on Mixed Data Type Correlation Measurement
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    数据在机器学习、人工智能等领域的研究和开发工作中占据了极其重要的地位. 然而现实中存在的一些因素导致数据需求者无法获得符合工作要求的真实数据集, 例如隐私问题、数据稀缺和数据质量较差等. 针对此现状, 在 SI (sampling-iteration) technique的基础上改进出一种非正态数据合成算法(KMSI). 该算法使用混合类型相关系数矩阵以减小SI technique在目标设定、控制循环等步骤中的度量误差, 通过替换Bootstrap采样法为核密度估计采样法以避免使用真实数据. 实验结果表明, KMSI相较SI technique能够应对复杂分布和混合类型的数据集, 且在合成结果中不包含真实数据; 相较于其他改进方法, KMSI在合成数据集样本量上能够给予使用者更大的自定义空间.

    Abstract:

    Data plays an extremely important role in research and development in fields such as machine learning and artificial intelligence. However, some real-world factors prevent data consumers from obtaining real datasets that meet their work requirements, such as privacy issues, data scarcity, and poor data quality. In response to this situation, this study develops a non-normal data synthesis algorithm (KMSI) as an improvement to the sampling-iteration (SI) technique. This algorithm utilizes a mixed-type correlation coefficient matrix to reduce measurement errors in various steps of the SI technique, including target setting and control loops. It replaces Bootstrap sampling with kernel density estimation sampling to avoid using real data. Experimental results show that, compared to the SI technique, KMSI is capable of handling complex and mixed-type datasets and does not include real data in the synthetic results. Furthermore, compared to other enhancement methods, KMSI offers users more customization options for the sample size in synthetic datasets.

    参考文献
    相似文献
    引证文献
引用本文

王春东,张世鹏.基于混合数据类型相关性度量的非正态数据合成.计算机系统应用,2024,33(3):195-205

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2023-09-23
  • 最后修改日期:2023-10-20
  • 录用日期:
  • 在线发布日期: 2024-01-19
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号