多声源环境下的鲁棒说话人识别
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


Robust Speaker Recognition in Multi-Source Environment
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    针对多声源干扰环境下说话人识别系统性能急剧下降的问题, 提出一种提取目标语音的前端处理方法, 该方法依据独立语音时频域的近似稀疏性, 基于目标语音方位信息采用非线性时频掩蔽方法提取目标语音. 建立了基于梅尔倒谱系数(MFCC)的高斯混合模型(GMM)说话人识别系统. 仿真实验证明, 该方法能有效提取目标语音, 提高说话人识别系统的鲁棒性. 该文多声源干扰仿真实验条件下, 说话人识别系统的识别率平均提高了25%左右.

    Abstract:

    The Speaker Recognition System is significantly affected by the Multi-Sound sources problem. In order to overcome this problem, a target sound extraction algorithm named time-frequency masking is proposed. The proposed algorithm is based on the sound source azimuth information and the approximate sparse nature of sound. A Mel-frequency cepstral coefficient (MFCC) based Gaussian mixture model (GMM) speaker recognition system is presented to improve the recognition robustness. The proposed algorithm has been tested on the simulated data through a number of experiments which shows the efficiency and robustness of the proposed algorithm. In the Multi-Sound sources environment, the recognition rate of the proposed algorithm can be improved by about 25%.

    参考文献
    相似文献
    引证文献
引用本文

张凤仪,夏秀渝,冉国敬,何礼,叶于林.多声源环境下的鲁棒说话人识别.计算机系统应用,2015,24(4):32-37

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2014-08-11
  • 最后修改日期:2014-09-05
  • 录用日期:
  • 在线发布日期: 2015-04-24
  • 出版日期:
文章二维码
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号