摘要:正确识别语音中包含的情感信息可以大幅提高人机交互的效率. 目前, 语音情感识别系统主要由语音特征抽取和语音特征分类两步组成. 为了提高语音情感识别准确率, 选用语谱图而非传统声学特征作为模型输入, 采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息. 实验结果表明: 在模型中引入注意力机制有利于减少冗余信息的干扰, 并且相较于基于LSTM网络的模型, 采用GRU网络的模型预测精确度更高, 且在训练时收敛更快, 与基于LSTM的基线模型相比, 基于GRU网络的模型训练时长只有前者的60%.