Segmental Recurrent Neural Network for End-to-end Speech Recognition

Segmental Recurrent Neural Network for End-to-end Speech Recognition

Liang Lu & Steve Renals, University of Edinburgh

Lingpeng Kong & Chris Dyer, CMU

Noah Smith, UW-Seattle

1. Introduction

将CRF结合RNN,进行特征提取。

speech-recognition是标准的seq2seq问题。其中最重要的组成部分是acoustic model,能给定输入序列的情况下,给出输出序列的概率。然而计算这个概率会受到很多因素的影响,比如序列长度。HMM将这个seq-level的分类问题转换成了frame-level的分类问题。但HMM优缺点,就是它假设了独立性,和一介Markov规则。补充一个不错的Markov材料

CTC模型(connectionist temporal classification)直接定义损失函数来最大化输出序列的联合概率,但是还是需要输入和输出序列长度一样。CTC的解决方案是把实际label复制多份以及加空格。

attention-based RNN,它与CTC和HMMs不同的地方在于,它没有假设输入序列是conditional independent。在每个decoding步骤,都把变长的向量映射到定长大向量(比如softmax的几个类),然后由此产生output序列。关于attention机制的一片论文。但这个模型对于语音识别不能够非常自然地进行转换。

这篇paper我们讨论segmental RNN。和CTC和attention-based RNN很类似,因为也使用了RNN encoder进行特征提取,但是区别是sequence-level的联合概率是有segmental CRF定义的,而不是标准CRF。

2. Segmental Recurrent Neural Networks

$$ P(y,E|X) = \frac{1}{Z(X)} \prod exp \, f(y_j, e_j, X)\

Z(X) = \underset{y,E}{\sum} \underset{j=1}{\overset{J}{\prod}} exp \, f(y_j, e_j, X)\

f(y_j, e_j, X) = w^T \Phi(y_j, e_j, X)

$$

$$\Phi(\cdot)$$是使用RNN进行的特征表示,将声音信号和对应的label射到特征空间。

4. Conclusion

简单地说,segmental RNN就是将segmental CRF结合了encoder RNN,作为一种新的acoustic model。

Appendix

results matching ""

    No results matching ""