关注全局真实度的文本到图像生成
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Text-to-image Generation Focusing on Global Fidelity
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对文本和图像模态在高维空间中相互映射的困难问题, 提出以全局句子向量为输入, 以堆叠式结构为基础的生成对抗网络(GAN), 应用于文本生成图像任务. 该网络融入双重注意力机制, 在空间和通道两大维度上寻求特征融合的更大化, 同时增加真实度损失判别器作为约束. 所提方法在加利福尼亚理工学院的CUB鸟类数据集上实验验证, 用Inception Score和SSIM作为评估指标. 结果表明, 生成图像具有更真实的细节纹理, 视觉效果更加接近于真实图像.

    Abstract:

    Considering the difficulty in mutual mapping between text and image modalities in high-dimensional space, this study proposes a generative adversarial network (GAN) based on a stacked structure with global sentence vectors as input for the application of text-to-image generation tasks. The network incorporates a dual attention mechanism for greater integration of features in the two dimensions of space and channel. At the same time, we add the discriminator for fidelity loss as a constraint. The proposed method is experimentally verified on the Caltech-UCSD Birds (CUB) dataset, with Inception Score and SSIM as the evaluation indexes. The results show that the generated image has more realistic detail textures, and the visual effect is closer to the real image.

    参考文献
    相似文献
    引证文献
引用本文

胡成,胡莹晖,刘兴云.关注全局真实度的文本到图像生成.计算机系统应用,2022,31(6):388-393

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2021-09-03
  • 最后修改日期:2021-09-26
  • 录用日期:
  • 在线发布日期: 2022-05-26
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号