改进Wav2Lip的文本音频驱动人脸动画生成

doi:10.15888/j.cnki.csa.009405

AIPUB归智期刊联盟

微信公众号

网站二维码

2025年4月23日 20:36 星期三

首页 > 过刊浏览>2024年第33卷第2期 >276-283. DOI:10.15888/j.cnki.csa.009405

PDF HTML阅读 XML下载导出引用引用提醒

改进Wav2Lip的文本音频驱动人脸动画生成
DOI:
                        10.15888/j.cnki.csa.009405
                    
CSTR:
                        32024.14.csa.009405
                    
作者:
                        孙瑜孙瑜
西安工程大学 计算机科学学院, 西安 710600
在期刊界中查找
在百度中查找
在本站中查找
朱欣娟朱欣娟
西安工程大学 计算机科学学院, 西安 710600
在期刊界中查找
在百度中查找
在本站中查找

                    
作者单位:
作者简介:
通讯作者:
中图分类号:
基金项目:国家重点研发计划(2019YFC1521400)

Text Audio Driven Facial Animation Generation Based on Improved Wav2Lip

Author:

SUN Yu
SUN Yu
School of Computer Science, Xi’an Polytechnic University, Xi’an 710600, China
在期刊界中查找
在百度中查找
在本站中查找
ZHU Xin-Juan
ZHU Xin-Juan
School of Computer Science, Xi’an Polytechnic University, Xi’an 710600, China
在期刊界中查找
在百度中查找
在本站中查找

Affiliation:

Fund Project:

摘要

图/表

访问统计

参考文献

相似文献

引证文献

资源附件

文章评论

摘要:

为了提高中文唇音同步人脸动画视频的真实性, 本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术. 首先, 构建了一个中文唇音同步数据集, 使用该数据集来预训练唇部判别器, 使其判别中文唇音同步人脸动画更加准确. 然后, 在Wav2Lip模型中, 引入文本特征, 提升唇音时间同步性从而提高人脸动画视频的真实性. 本文模型综合提取到的文本信息、音频信息和说话人面部信息, 在预训练的唇部判别器和视频质量判别器的监督下, 生成高真实感的唇音同步人脸动画视频. 与ATVGnet模型和Wav2Lip模型的对比实验表明, 本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性, 提高了人脸动画视频整体的真实感. 本文成果为当前人脸动画生成需求提供一种解决方案.

关键词:文本音频驱动;人脸动画;Wav2Lip模型;动画生成

Abstract:

In order to improve the authenticity of Chinese lip synchronized facial animation videos, this study proposes a text audio-driven facial animation generation technology based on the improved Wav2Lip model. Firstly, a Chinese lip synchronized dataset is constructed, which is used to pre-train the lip discriminator to make it more accurate in discriminating Chinese lip synchronized facial animations. Then, in the Wav2Lip model, text features are introduced to improve lip time synchronization and thus improve the authenticity of facial animation videos. The model in this study synthesizes the extracted text information, audio information, and speaker facial information and generates a highly realistic lip synchronized facial animation video under the supervision of a pre-trained lip discriminator and video quality discriminator. The comparative experiments with the ATVGnet model and Wav2Lip model show that the lip synchronized facial animation video generated by the proposed model improves the synchronization between lip shape and audio and enhances the overall realism of the facial animation video. The paper provides a solution for the current facial animation generation.

Key words:text audio drive;facial animation;Wav2Lip model;animation generation

引用本文

孙瑜,朱欣娟.改进Wav2Lip的文本音频驱动人脸动画生成.计算机系统应用,2024,33(2):276-283

复制

文章指标

点击次数:
下载次数:
HTML阅读次数:
引用次数:

历史

收稿日期:2023-08-17
最后修改日期:2023-09-26
录用日期:
在线发布日期: 2023-12-18
出版日期: 2023-02-05

微信公众号

网站二维码

引用本文

分享

文章指标

历史

文章二维码

微信公众号

网站二维码

引用本文

分享

微信扫一扫：分享

文章指标

历史

文章二维码