语音是采用一定语言规则通过人体发声器官发出的有规律的声音信号. 语音识别(Auto Speech Recognition, ASR)是研究如何将语音信息转化成文本信息. 语音的研究领域可以细分为语音识别、语音合成、声纹识别. 其涉及到信号处理, 自然语言处理等. 在发展过程中经历了3个阶段. 一是孤立词识别, 二是连接词识别, 如连续数字或连续单词, 三是大词汇量下连续语音识别.
自上世纪50年代开始, 着手于最简单的数字识别任务, 语音识别领域进入研究者的视野. 到80年代, 研究者们采用统计分析的方法使连续语音识别成为可能. 在我国, 50年代末有研究者采用电子管电路, 对英语中的元音进行尝试识别. 90年代, 清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面取得有效成果[1]. 进入21世纪, 深度学习的发展极大促进了语音识别技术. 2017年, 微软宣布了其在Switchboard词错率(Word Error Rate, WER)降至5.1%[2], 这意味一定条件下机器已经可以像人类专业速记员一样识别词语了. 2018年阿里巴巴语音识别模型DFSMN采用开源框架Kaldi进行构建, 在Fisher (FSH)数据集上测试词错率仅为9.4%[3]. 百度的模型在其自建的中文数据集上训练并测试, WER低至7.93%, 取得良好的效果[4]. 但是在复杂多变的应用场景中, 识别准确率会大大下降. 因此, 语音识别领域还有许多问题需要继续研究和解决.
1 语音识别技术研究 1.1 语音信号特征提取技术早在1952年, 首先研究了特定说话人孤立数字, 是由贝尔实验室的Davis等进行的[5]. 1956年, RCA实验室的奥尔森通过带通滤波器, 实现了一些单音节词的识别[1]. 1959年, Fry和Denes等通过频谱分析, 对语音的特征进行提取, 然后采用模式匹配的方法, 识别元音和辅音[1].
一般认为, 人们在10–30 ms的时段内, 语音是稳定的, 因此它是一个短时的时不变信号. 一般的特征提取方法有: 线性预测编码参数(LPCC), 感知线性预测系统(PLP), 梅尔频率倒谱系数(MFCC)等.
1980年, Davis等在前人研究的基础上, 做了大量生理心理学实验, 得到了一组经验公式[6], 频率转换公式为:
${f_{\rm Mel}}{\rm{=}}2595 \times \lg \left(1+\frac{f}{{700}}\right)$ |
对每帧信号进行变换, 采用信号处理中的短时傅里叶变换:
${X_n}{\rm{(}}\omega {\rm{)=}}\sum\limits_{m= - \infty }^\infty {x(m)w(n - m)} {{\rm{e}}^{ - j\omega m}}$ |
其中, w(n)为窗函数.
1.2 动态时间归正(DTW)RCA实验室的Martin等在1960年代末提出了时间归正的相关方法. 同时苏联的Vintsyuk也提出了采用动态规划方法来解决对齐问题[7]. 最终在70年代, 日本学者Sakoe给出了动态时间归正(Dynamic Time Warping, DTW)算法, 也称动态时间弯折、动态时间规整, 其将时间和距离计算结合起来, 采用动态规划的思想进行归正[8].
假设首先根据统计得来某个语音的模板, 其特征矢量序列为
$\begin{split} dtw[i][j]=&\min (\min (dtw[i - 1][j],dtw[i][j - 1]), \\ & dtw[i - 1][j - 1])+d[i][j] \end{split} $ |
其中,
70年代末, Buzo等[9]提出了矢量量化(VQ), 并将其成功应用. 首先采用统计方法, 将某个语音对应的多个信号划为一组, 用中心矢量作为代表值. 这样, 就将d维无限空间划分为K个区域边界, 每个区域称为一个包腔, 当待识别的输入信号的矢量给定时, 将其与这些包腔的边界进行比较, 当输入信号属于某个包腔时, 就被量化为此包腔的中心矢量值. 包腔的中心称为码字, 码字的组合称为码本. 一般采用K-means算法或LBG算法获得码字. 采用欧氏距离(均方差距离)度量. 这种技术主要用于孤立词的语音识别.
1.4 GMM-HMM从1980年代开始, CMU使用VQ/HMM (Hidden Markov Model)实现了一个语音识别系统SPHINX. 可以实现997词的非特定人连续语音识别[10]. 隐马尔可夫模型是在70年代由Baum和Baker等建立和应用的[11].
HMM具有无后效性的特征, 参数包含初始概率和概率转移矩阵, HMM中的观察变量和状态通过一组概率分布相联系. 这个隐变量和观察值的对应的统计规律, 用高斯混合模型(Gaussian Mixture Model, GMM)表示. K阶高斯混合模型是由k个高维联合高斯分布加权求和而得:
$p(x){\rm{=}}\sum\limits_{k=1}^K {{\pi _k}{\cal{N}}} (x|{\mu _k},{\Sigma _k})$ |
其中,
对于语音来讲, 同一个音素可能在不同情态下的发音方式区别很大, 语音特征区别也就很大, 因此需要用多中心的分布来对应一个HMM中的状态, 因此两者结合起来, 就形成了GMM-HMM方法. 它由一组参数描述: N, 状态数目; π, 初始状态概率; A, 状态转移概率矩阵; B, 观察值概率分布.
GMM-HMM的训练分为两步, 首先是求GMM的参数, 语音字典建立后, 语音和音素状态建立了多对一的对应关系. 将同一个音素状态的所有语音的特征进行分别提取, 用这些数据建立一个GMM来对这个音素状态进行拟合. 重复这一过程, 将所有的音素状态分别建模. 第二步是对HMM中的参数π和A进行估计(训练), 即给定一个观察值序列
使用Viterbi算法进行预测. 即给定观察值序列
1980年代, 人工神经网络(ANN)被引入到语音识别[2]. 但是由于计算能力的限制和人工神经网络的理论不完备, 采用人工神经网络方法的语音识别并没有更加蓬勃的发展起来.
1.5.1 引入DNN到语音识别2006年, Hinton等提出了深度置信网络(DBN)[12], 贪婪的逐层无监督学习算法是其核心. 通过先使用DBN来对多层感知机进行预训练, 然后通过反向传播算法来进行微调, 提供了一种解决深层网络优化过程中过拟合和梯度消失问题的有效途径. Deng等促成了这一实践的成功[13]. 他们使用深度神经网络DNN (Deep Neural Network)代替传统的GMM-HMM系统中的GMM, 以音素状态为建模单位, 提出了DNN-HMM的识别方法(如图1), 显著降低了误识率, 使其进入到真实用户可以接受的范围[14]. 和GMM-HMM相比, DNN替换了GMM, 语音信号的状态与观察值的对应采用深度神经网络来进行建模拟合.
DNN的输入可以是MFCC特征, 也可以是更底层的滤波器组(Filter BanK, FBK)声学特征. 输出矢量的维度对应到HMM的状态的个数.
1.5.2 CNN使用CNN来进行语音识别, 主要是将卷积层和池化层堆叠起来以获取更高级别的特征, 这些层的顶部, 有一个标准的全连接层, 代表HMM状态, 它对网络中训练出来的特征进行整合. LeCun等首先提出了沿时间轴进行卷积的语音数据CNN[15]. 这样可以获得相对较小的时间偏移, 获得具有鲁棒性的特征.
Abedel-Hamid等[16]通过沿频率轴而不是时间轴应用卷积和最大池化, 实现了重大的提升. 发现沿频率轴的卷积会产生对小频移具有较高的鲁棒性, 这对于说话者或情绪变化具有较好的适应能力. 越来越多的研究人员在时间轴和频率轴上探索了卷积的方法.
这些探索和试验表明, 在DNN-HMM模型中, CNN的性能优于完全连接的DBN. 这是由于DBN以任何顺序解释输入, 但实际上语音的特征与频率和时间上紧密相关, 权重共享使得CNN可以捕获这些局部相关性. 其次, 权重共享和合并有助于CNN捕获等变差异并获得更好的鲁棒性及稳定性. 而对于DBN, 若要在较小的频率和时间偏移上捕获此类不变性, 需要大量的参数.
Sainath等[17]证明, 对于大型词汇任务, CNN的性能比DBN更好. 这些实验进行了细致的优化手段, 包括超参数调整, 有限的权重分配和序列训练. Chan等[18]对低资源语言基于CNN的声学模型进行的研究得出, 在低资源语言条件下, CNN能比DBN提供更好的鲁棒性和更好的泛化性能.
1.5.3 RNN语音信号是一种时序信号, 模型如果能够对其时序动态信息进行有效表示, 将大大提升效果. DNN-HMM的系统中声学模型是DNN和HMM的混合. 而RNN(循环神经网络)通过在隐层上增加反馈连接, 当前时刻的输入分为两部分, 一是当前时刻输入序列产生的输入, 这部分和普通的前馈神经网络是一样的, 传递的神经网络获取的特征表示, 二是由上一时刻保留的记忆信息, 产生的输入. 通过这种机制, RNN可以利用到之前的信息.
研究人员对HMM-RNN混合模型进行了实验[19], 但结果与基于DBN的CNN声学模型无法相提并论. Graves等[20]提出CTC (Connectionist Temporal Classification)损失函数, 使神经网络能够学习字符序列和未分段语音之间的对齐关系, 从而避免了使用HMM来进行强制对齐, 实验中, 在TIMIT数据集上表现优于HMM-RNN混合方式. 文献[21]在HMM-RNN的基础上, 提出使用深度双向LSTM作为其声学模型, 并在TIMIT数据集中取得了较好结果. 文献[22]中对这种声学模型的进行了进一步的研究, 通过使用上下文相关的语音单元, 使用LSTM输出空间的上下文相关状态和采用分布式训练方式等方法, 取得了一些进展.
1.5.4 端到端技术传统的语音识别模型通常包含声学模型(Acoustic Model, AM)、发音词典(Lexicon)和语言模型(Language Model, LM)三部分组成. 每一部分都需要单独的学习训练, 端到端(end-to-end)的机制可以使得模型的训练摒弃发音词典和语言模型, 真正实现直接从语音转录成文本. 端到端主要有两种实现, 其中一种是上文提到的CTC. 另一种是基于注意力机制(attention)的编码器-解码器(encoder-decoder)模型, 由Chorowski等于2014年首先应用到语音中的音素识别上面[23].
如图2所示的CTC方法最为常用, 是对RNN的一种改进. 一般来说, 输入特征序列与音素的对齐关系并不确定, 而且, 按照划分, 音素序列长度远远小于语音按照10–30 ms分帧后的序列长度, 然而, RNN模型中的标注序列和输入序列必须是对应的. 这样的结果就是不管是基于DNN-HMM模型还是RNN-HMM模型都得首先采用GMM-HMM训练进行强制对齐. CTC在标注符号集中加入了一个空白符号(blank), 它意味着此帧没有预测值输出. 因而在模型的预测输出中就包含了很多空白符号, 一个音素对应的一整段语音中只有一个尖峰被识别器确认, 其他都被识别为空白, 结果相当于自动的切分了音素边界, 实现了将空白符号和连续出现的状态进行了消除, 就能得到最终预测的字符序列. Hannun等[24]采用了带有双向递归层的5层RNN, 经过CTC损失训练以及语言模型来纠正, 在Switchboard数据集上获得了当时最好的结果. 同时他们还提出了一些优化方案. Amodei等[4]在这基础上, 使用有13个隐层(包含卷积层)的模型取得了更好的结果.
Attention机制最先应用于机器翻译中, 并在机器翻译中取得了较好的效果. 其主要思想就是通过编码器(encoder)将原序列转换成一个固定长度的隐层表示, 然后解码器(decoder)再根据这个隐层表示生成解码序列, 生成解码序列过程中考虑当前解码输出与隐层表示中哪一部分最相关, 这部分就是注意力机制, 其结构如图3.
在这个模型结构中, 每一个条件概率的输出定义为:
$p({y_i}|{y_1},\cdots,{y_{i - 1}},X)=g({y_{i - 1}},{s_i},{c_i})$ |
其中, yi表示第i时刻解码输出标记, X表示编码器输入, yi−1表示上一时刻解码输出, si表示i时刻的隐层状态, ci表示上下文向量. 其中si计算公式为:
${s_i}=f({s_{i - 1}},{y_{i - 1}},{c_i})$ |
上下文向量ci是编码器输出隐变量hi的加权和.
${c_i}=\sum\limits_{j=1}^{{T_x}} {{\alpha _{ij}}{h_{ij}}} $ |
其中,
${\alpha _{ij}}=\dfrac{{\exp ({e_{ij}})}}{{\displaystyle\sum\nolimits_{k=1}^{{T_x}} {\exp ({e_{ij}})} }}$ |
其中,
Encoder-decoder结构是针对序列到序列的问题提出的, 一般采用RNN及其变体(LSTM等), 目前常用的就是采用Bi-LSTM作为encoder. 由于decoder是对上一时刻输出的依赖, 对于decoder的改进较难, 但对encoder的研究取得了一定的进展.
Facebook在2017年提出ConvS2S结构, 把卷积结构首先引入机器翻译问题中, 并且一度获得最好的效果[25]. 由于没有时序结构, 因此需要在embedding的基础上面增加位置信息, 模型中将position embedding(pi)与原来的embedding(wi)直接进行相加, 因此模型的输入序列为e={e1,···,em}, 其中ei=wi+pi. Decoder在每一时刻的输入g={g1,···,gm}, 同样由两部分组成, 分别是上一时刻输出的word embedding以及对应的position embedding. Decoder中第l个block的输出定义为
ConvS2S将CNN引入到Seq2Seq中, 这样既可以处理序列变长的问题, 又可以实现在序列不同位置的并行计算. RNN的另一个缺陷在于, 对于一个长度为n的序列, 要建立长时相关, 需要经过O(n)次运算, 而对于卷积核宽度为k的多层CNN来说, 则需要O(n=k)次运算.
受限于LSTM的计算速度问题, 常见的Seq2Seq结构都采用的是浅层结构, Zhang等[26]受Very Deep CNN在ASR任务中的优秀表现启发, 提出使用更深层的网络来进行序列编码, 代替浅层encoder. 使用了Network-in-Network(NiN), Batch Normalization(BN), Residual Networks(Res-Nets)和Convolutional LSTM(ConvLSTM)等方法构建模型. 借鉴NiN中的
Chan等[27]提出新的ASR结构, 即LAS (Listen, Attend and Spell). 主要包含两部分, Listener是金字塔型的循环网络编码器, 接受滤波后的频谱作为输入. Speller是基于注意力机制的循环网络解码器, 以之前的字符和声音序列为条件预测字符. 提高了编码的速度, 每层都会将时间步减少一半.
$\left\{ \begin{split} &h_i^j=pBLSTM\left(h_{i - 1}^j,\left[h_{2i}^{j - 1},h_{2i+1}^{j - 1}\right]\right)\\& {c_i}=AttentionContext({s_i},h)\\& {s_i}=RNN({s_{i - 1}},{y_{i - 1}},{c_{i - 1}})\\& P({y_i}|x,y < i)=CharacterDistribution({s_i},{c_i}) \end{split}\right.$ |
这里的金字塔结构采用每层合并上一层相邻的2或3个时间步, 其中character distribution是前馈网络结构.
对于attention机制的探索也是一个重要的研究方向. Attention的核心思想就是计算当前要解码序列需要的输入信息与上下文信息之间的相关性. 相关性的计算就是:
文献[28]中直接进行计算, 这种方式没有考虑两个向量位于不同的特征空间, 直接计算打分结果. 常见的有:
Dot:
$score\left( {{h_t},{\overline h _s}} \right)=h_t^{\rm{T}}{\overline h _s}$ |
General:
$score\left( {{h_t},{\overline h _s}} \right)=h_t^{\rm{T}}{W_a}{\overline h _s}$ |
Concat:
$score\left( {{h_t},{\overline h _s}} \right)=v_a^{\rm{T}}\tanh \left({W_a}\left[h_t^{\rm{T}};{\overline h _s}\right]\right)$ |
文献[29]指出打分过程应参考上一时刻的注意力权重, 那么打分过程成为:
Hard-attention是文献[30]在image caption generation任务中提出的. 常见的注意力机制是经过Softmax层输出之后有不同的权重, 是一个向量, 里面元素都是范围在[0,1]之间的小数, 和为1. 而采用hard-attention之后, 注意力向量中的元素只有一个是1, 其余的都是0, 也就是在每一个时间步, 模型只关注一个位置. 向量是One-hot形式.
而soft-attention更常见一些, 即注意力向量中的不同位置的权重值不同, 这样的soft-attention是光滑的且是可微的. 文献[30]中还对注意力机制进行了微调.
${\widehat {\textit{z}}_t}=\beta \sum\limits_i {{\alpha _{t,i}}} {h_i}$ |
其中,
文献[29]中考虑为了使得hu中的元素更加具有区分性, 可以考虑把权重换成矢量
文献[31]最先提出了Multi-Head Attention (MHA). MHA在传统注意力机制的基础上扩展了多个head, 每个head能够生成不同的注意力分布. 这个允许每个head在对应编码器输出的时候, 可以扮演不同的角色. 这种方式能够帮助解码器更容易的从编码输出中检索出所需要的信息. 传统的single-head attention更加依赖于编码器提供清晰的隐层表示以使得Decoder能够挑选出重要的信息. MHA趋向于分配一个head去关注语句的开头, 语句的开头往往包含大部分的背景噪声. 为了确保MHA在训练过程中确定能够关注到不同的位置, 一些研究者在损失函数中增加正则项, 以确保多个MHA之间存在差异.
纯attention方法虽然取得了不错的效果, 但是在训练过程中存在着明显的收敛速度慢, 震荡幅度大等问题. 这很大程度上在于一开始attention注意范围太广, 难以收敛. 文献[29]提出使用CTC辅助attention模型的训练, 实验表明这种方法能够极大的提高模型的收敛速度. 模型成功的关键在于在损失函数中引入CTC Loss:
$Loss=\lambda {L_{\rm CTC}}{\rm{+(}}1{\rm{ - }}\lambda {\rm{)}}{{{L}}_{\rm Attention}}$ |
在CTC辅助训练的情况下, 原本需要9个epoch才能收敛的模型在5个epoch的时候已经收敛了. 在解码阶段, 如果对应于attention的decoder中非OOV (Out Of Vocabulary)的词汇, 则使用对应的输出. 如果最大概率的输出是OOV标记, 则使用CTC中的结果进行代替. 为了实现混合解码, CTC部分除了增加blank, 还应该增加一个词边界标记wb.
Transformer是最初在机器翻译领域中获得了成功. 其解决的问题主要是提高encoder的并行度. 其中关键的点就是self-attention和MHA两种机制. Self-attention是每个词都要和所有的词计算attention, 可以捕获长距离的依赖关系. MHA中不同head学习不同的子空间语义, 关注编码器输出的不同部分.
Self-attention:
$Attention(Q,K,V)=softmax \left(\frac{{Q{K^{\rm{T}}}}}{{\sqrt {{d_k}} }}\right)V$ |
Multi-head attention:
$ \left\{\begin{split} &MultiHead(Q,K,V)=Concat(hea{d_1},\cdots,hea{d_h}){W^o}\\& hea{d_i}=Attention\left( {QW_i^Q,K_i^Q,V_i^Q} \right) \end{split}\right.$ |
其中, Q表示query, K表示key, V表示value, 在self-attention时候, Q=K=V=inputs.
同时, 经过对attention的一系列探索, 一些优化手段被总结出来: 采用大的建模单元, 如子词或词等, 这样的建模单元更加稳定并且有助于语言建模. 文献[32]采用label smoothing方法来避免模型对于预测结果过于自信. 文献[33]使用最小化词错误率的方式进行区分性训练. 模型除了训练和推理过程训练时通常使用CE, 而在评价阶段使用WER等.
近两年, 虽然在学术领域语音识别已经取得了接近极限的实验结果, 但研究人员对端到端语音识别的研究仍然在不断拓展和尝试. 文献[34]采用深层Transformer, 认为其具有的高学习能力能够超越以前的端到端方法, 甚至可以比肩传统的混合系统. 对编码器和解码器使用48个Transformer层训练, 使用随机残差连接, 极大地提高了模型泛化性能和训练效率. 文献[35]提出Jasper模型, 其使用了一维卷积, 批量归一化, ReLU激活, dropout和残差连接, 同时引入了一个称为NovoGrad的分层优化器. 通过实验, 最多使用了54个卷积层的模型系取得了良好的结果. 文献[36]针对于在线应用问题, 认为BLSTM虽然代表了端到端ASR的先进技术, 但不适合流应用程序, 因此提出时延LSTM (TDLSTM)和并行时延LSTM (PTDLSTM)流, 它们都限制了时延大小, 保证了在线应用的效果.
1.5.5 复杂噪声环境下的语音识别语音识别系统往往受到噪声干扰, 使其性能大大下降. 在前端添加可以把目标说话人的声音和其它干扰分开的处理过程, 就可以提高语音识别系统的鲁棒性, 从而提高准确率, 因而这已成为ASR系统中无法缺少的一环. 这种对语音进行去噪、分离、解混响的任务统称为语音分离. 根据干扰的不同可对领域进行细分, 当干扰为非语音噪声时, 称为语音增强; 当其为其他说话人的语音时, 称为多说话人分离, 当其为目标说话人自身的反射波时, 称为解混响.
传统的语音分离方法有谱减法、维纳滤波法、卡尔曼滤波法等. 深度学习方法流行后, 研究人员采用了DNN、LSTM和CNN等进行模型构建, 取得了良好的效果. 文献[37]采用GAN作为模型, 将生成器全部设置为卷积层, 减少了参数和训练时间, 判别器负责向生成器提供生成数据的真伪信息, 从而使模型参数逐渐向生成纯净语音方向变化. 训练目标一般包括两类, 一类是基于Mask的方法, 另一类是基于频谱映射方法. 基于Mask方法主要有理想二值掩蔽(IBM)和理想比率掩蔽(IRM), 都是根据听觉感知特性, 将音频信号分成不同的子带, 根据不同的信噪比, 将能量设置为0、1或者相应比率. 频谱映射采用谱特征, 让模型通过有监督学习, 使其自己能够学习到有干扰谱和无干扰谱之间的映射关系[38]. 文献[39]在CHiME-5挑战数据集上取得了良好的成绩. 其首先进行多通道解混响与增强, 再进行单通道去噪, 采用调整的波束成型方法和说话人相关训练, 测试达到了60%WER的效果. 文献[40]结合了频谱特征和空间特征训练网络, 从估计的方向和特定的频谱中提取目标语音, 可以不需要已知麦克风数量和位置. 采用目标语音的时频单元估计方向, 结合深度聚类及采用置换不变训练目标函数的Chimera++网络, 集成时频掩蔽的波束成型技术, 使系统有了强大的分离随机排列的麦克风场景语音和解混响能力.
2 当前面临的挑战及发展趋势对于语音识别和端到端系统来说, 学界已经研究的相当深入, 当前主要的研究热点在于, 一方面是将已经成熟的机器视觉和自然语言处理方向的方法理论迁移到语音领域, 一方面是继续深挖已有端到端技术下的各种微调和优化手段, 不断提升识别性能和鲁棒能力. 当前主要的挑战有两方面, 一是技术方面的, 另一个则是数据和工具方面的.
从技术方面来说, 首先, attention应用到ASR中, 和原来应用在机器翻译领域不同, ASR问题语音信号和文本序列之间存在着明显的时序对应关系, 需要考虑如何在模型中应用这种时序对应关系帮助我们进行模型训练. 同时, 翻译问题中文本中存在着明显的词边界, 其encoder能够提供更加清晰的隐层表示, 对于ASR, 需要考虑怎么获取更加清晰和更加有区分性的隐层表示. 其次, 相比于传统AM, LM, 发音词典独立的模型结构, attention方法在建模语言之间的关联关系方面存在着缺陷, 怎样能够在不增加整体语音语料和语言模型的情况下, 提高模型对于表征单词之间联系的能力. 第三, 随着建模单元的逐渐增加, 怎么更加高效的解决诸多未登录词问题. 因此, 目前CTC和attention方法可能都不是最优的端到端建模的方法, 探索新的建模方法也是未来的重点之一.
从数据和工具方面来说, 深度语音识别的实践存在阻碍. 一是高质量数据集较难获取, 语音数据的收集和标注费时费力, 只有大企业才有获得这些数据的入口, 而更多的研究者在进行研究时因为数据问题而无法得到较好结果, 只能转向传统的GMM-HMM方法; 二是深度语音识别的框架和工具还有待更新和简化, 这样才会将技术壁垒进一步消除, 使得更多的研究者能将语音识别应用到更广阔的场景; 三是当前识别的评价指标的指向不够泛化和实用, 往往在一个数据集上表现好的模型不一定在其他数据集上同样优秀.
因此, 当前深度语音识别研究的主要趋势就是不断深入研究端到端模型及其各种优化方法, 同时, 探索用于迁移学习的工具和数据策略, 使得语音识别也能像机器视觉领域那样遍地开花, 大大提高整个社会的人工智能化水平.
3 结论与展望本文简要介绍了语音识别技术发展历史并详细阐述了语音识别中端到端技术的进展, 同时分析了当前语音识别所面临的挑战与趋势. 在现有深度语音识别的研究基础上, 应当继续探索端到端技术的潜力, 并着力解决数据和框架工具等影响实践的障碍, 从而使其能更广泛更方便的应用到实际任务中.
[1] |
韩纪庆, 张磊, 郑铁然. 语音信号处理. 北京: 清华大学出版社, 2004.
|
[2] |
Yu D, Deng L. 解析深度学习-语音识别实践. 俞凯, 钱彦旻, 译. 北京: 电子工业出版社, 2016.
|
[3] |
Zhang SL, Lei M, Yan ZJ, et al. Deep-FSMN for large vocabulary continuous speech recognition. Porceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB, Canada. 2018. 5869–5873.
|
[4] |
Amodei D, Ananthanarayanan S, Anubhai R, et al. Deep speech 2: End-to-end speech recognition in English and Mandarin. Proceedings of the 33rd International Conference on Machine Learning. New York, NY, USA. 2016. 173–182.
|
[5] |
Davis KH, Biddulph R, Balashek S. Automatic recognition of spoken digits. The Journal of the Acoustical Society of America, 1952, 24(6): 637-642. DOI:10.1121/1.1906946 |
[6] |
Davis SB, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(4): 357-366. DOI:10.1109/TASSP.1980.1163420 |
[7] |
Vintsyuk TK. Speech discrimination by dynamic programming. Cybernetics, 1968, 4(1): 52-57. |
[8] |
Sakoe H, Chiba S. Dynamic programming algorithm optimization for spoken word recognition. IEEE Transactions on Acoustics Speech and Signal Processing, 1978, 26(1): 43-49. DOI:10.1109/TASSP.1978.1163055 |
[9] |
Buzo A, Gray A, Gray R, et al. Speech coding based upon vector quantization. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1980, 28(5): 562-574. DOI:10.1109/TASSP.1980.1163445 |
[10] |
Lee KF, Hon HW, Hwang MY, et al. The SPHINX speech recognition system. International Conference on Acoustics. IEEE, 1989.
|
[11] |
Juang BH, Rabiner LR. Hidden markov models for speech recognition. Technometrics, 1991, 33(3): 251-272. DOI:10.1080/00401706.1991.10484833 |
[12] |
Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554. DOI:10.1162/neco.2006.18.7.1527 |
[13] |
Dahl GE, Yu D, Deng L, et al. Large vocabulary continuous speech recognition with context-dependent DBN-HMMs. Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic. 2011. 4688–4691.
|
[14] |
Dahl GE, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42. DOI:10.1109/TASL.2011.2134090 |
[15] |
LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series. In: Arbib MA, ed. The Handbook of Brain Theory and Neural Networks. Cambridge: MIT Press, 1998. 255–258.
|
[16] |
Abdel-Hamid O, Mohamed Ar, Jiang H, et al. Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan. 2012. 4277–4280.
|
[17] |
Sainath TN, Kingsbury B, Mohamed Ar, et al. Improvements to deep convolutional neural networks for LVCSR. Proceedings of 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc, Czech Republic. 2013. 315–320.
|
[18] |
Chan W, Jaitly N, Le QV, et al. Listen, attend and spell. arXiv: 1508.01211, 2015.
|
[19] |
Vinyals O, Ravuri SV, Povey D. Revisiting recurrent neural networks for robust ASR. Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto, Japan. 2012. 4085–4088.
|
[20] |
Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd International Conference on Machine Learning. Pittsburgh, PA, USA. 2006. 369–376.
|
[21] |
Graves A, Jaitly N, Mohamed Ar. Hybrid speech recognition with deep bidirectional LSTM. Proceedings of 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc, Czech Republic. 2013. 273–278.
|
[22] |
Sak H, Senior A, Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling. Proceedings of the 15th Annual Conference of the International Speech Communication Association. Singapore. 2014. 338–342.
|
[23] |
Chorowski J, Bahdanau D, Cho K, et al. End-to-end continuous speech recognition using attention-based recurrent NN: First results. arXiv: 1412.1602, 2014.
|
[24] |
Hannun A, Case C, Casper J, et al. Deep speech: Scaling up end-to-end speech recognition. arXiv: 1412.5567, 2014.
|
[25] |
Gehring J, Auli M, Grangier D, et al. Convolutional sequence to sequence learning. Proceedings of the 34th International Conference on Machine Learning (ICML’17). Sydney, NSW, Australia. 2017. 1243–1252.
|
[26] |
Zhang Y, Chan W, Jaitly N. Very deep convolutional networks for end-to-end speech recognition. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing. New Orleans, LA, USA. 2017. 4845–4849.
|
[27] |
Chan W, Jaitly N, Le Q, et al. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. Proceedings of 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Shanghai, China. 2016. 4960–4964.
|
[28] |
Luong MT, Pham H, Manning CD. Effective approaches to attention-based neural machine translation. arXiv: 1508.04025, 2015.
|
[29] |
Das A, Li JY, Zhao R, et al. Advancing connectionist temporal classification with attention modeling. Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, AB, Canada. 2018. 4769–4773.
|
[30] |
Xu K, Ba J, Kiros R, et al. Show, attend and tell: Neural image caption generation with visual attention. Proceedings of the 32nd International Conference on Machine Learning. Lille, France. 2015. 2048–2057.
|
[31] |
Chiu CC, Sainath TN, Wu YH, et al. State-of-the-art speech recognition with sequence-to-sequence models. Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, AB, Canada. 2018. 4774–4778.
|
[32] |
Kannan A, Wu YH, Nguyen P, et al. An analysis of incorporating an external language model into a sequence-to-sequence model. Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, AB, Canada. 2018. 1–5828.
|
[33] |
Prabhavalkar R, Sainath TN, Wu YH, et al. Minimum word error rate training for attention-based sequence-to-sequence models. Proceedings of 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Calgary, AB, Canada. 2018. 4839–4843.
|
[34] |
Pham NQ, Nguyen TS, Niehues J, et al. Very deep self-attention networks for end-to-end speech recognition. Proceedings of the 20th Annual Conference of the International Speech Communication Association. Graz, Austria. 2019. 66–70.
|
[35] |
Li J, Lavrukhin V, Ginsburg B, et al. Jasper: An end-to-end convolutional neural acoustic model. Proceedings of the 20th Annual Conference of the International Speech Communication Association. Graz, Austria. 2019. 71–75.
|
[36] |
Moritz N, Hori T, Le Roux J. Unidirectional neural network architectures for end-to-end automatic speech recognition. Proceedings of the 20th Annual Conference of the International Speech Communication Association. Graz, Austria. 2019. 76–80.
|
[37] |
Pascual S, Bonafonte A, Serrà J. SEGAN: Speech enhancement generative adversarial network. Proceedings of the 18th Annual Conference of the International Speech Communication Association. Stockholm, Sweden. 2017. 3642–3646.
|
[38] |
Williamson DS, Wang DL. Speech dereverberation and denoising using complex ratio masks. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New Orleans, LA, USA. 2017. 5590–5594.
|
[39] |
Wang ZQ, Wang DL. Combining spectral and spatial features for deep learning based blind speaker separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(2): 457-468. DOI:10.1109/TASLP.2018.2881912 |
[40] |
Wu J, Xu Y, Zhang SX, et al. Improved speaker-dependent separation for CHiME-5 challenge. Proceedings of the 20th Annual Conference of the International Speech Communication Association. Graz, Austria. 2019. 466–470.
|