摘要:随着语音合成应用场景不断扩展, 对多人多情感语音合成的需求越来越大. 在实际应用中经常需要合成具有特定风格的语音信号. 为此提出一种基于注意力机制的端到端语音合成模型. 首先设计了说话人编码模块, 通过注意力机制提取语音信号中说话者的特征表示, 结合数据集中性别、年龄等特征标签构建说话人特征库; 其次设计风格编码模块, 通过注意力机制为不同梅尔特征通道赋予不同关注程度和权重; 然后使用K近邻构建虚拟说话人特征, 实现在不提供说话人及真实数据的情境下, 灵活组合不同说话人特征和风格特征, 搭配合成出具有特定特征风格的声音. 实验表明, 该模型对比SV2TTS模型有较快的训练速度, 能够合成具有特定风格的高质量的语音.