基于变分自编码器潜变量语义提炼的样本生成方法
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:

住房和城乡建设部2019年科学技术计划(2019-K-157)


Virtual Sample Generation Method Based on Semantic Meaning Extraction of Vae’s Latent Variables
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    人工智能的逐步应用对行业的生产效率和技术变革影响显著, 传统行业因样本收集难度大、成本高、涉及个人隐私等原因, 进行深度学习时, 面临着小样本和不平衡数据问题. 现有的样本扩充方法存在着生成效果不能兼顾广泛性和合理性等问题. 为此, 提出一种基于变分自编码器潜变量语义提炼的样本扩充算法, 利用神经网络的权重作为输入特征与潜变量相关性的度量, 获取输入特征与变分自编码器潜变量的依赖关系, 为潜变量赋予语义提供重要依据, 实现显式控制潜变量的不同维度, 生成满足总体分布且在原训练集未包含的样本. 在对民用建筑结构安全数据库的样本扩充结果表明, 该方法能有效生成特定属性的样本, 能一定程度上解决小样本问题和不平衡数据问题.

    Abstract:

    The application of artificial intelligent has been stimulating the productivity and technological revolution of industries. Traditional industries are facing small sample and imbalanced data problems due to the rarity nature of sample, cost and privacy issues. However, the sample generation results of existing methods are often limited to balancing generalization and validity. The purposed semantic meaning extraction of VAE’s latent variables based virtual sample generation method utilized the weights of encoder neural network as the measurement of dependency between input features and the latent variables. This method achieves flexible sample generation by controlling various dimensions of latent variables explicitly. The generated samples which satisfy the population distribution, are not necessarily included in the original samples. The results of sample expansion of civil buildings structural safety databases show that our method is capable of controllable generation of valid samples, and mitigating the problems of small sample and imbalanced data.

    参考文献
    相似文献
    引证文献
引用本文

王俊杰,焦柯,彭子祥,谭丽红,王文波.基于变分自编码器潜变量语义提炼的样本生成方法.计算机系统应用,2022,31(3):255-261

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-04-28
  • 最后修改日期:2021-05-28
  • 录用日期:
  • 在线发布日期: 2022-01-24
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号