Neural Machine Translation by Jointly Learning to Align and Translate
最后更新于
这有帮助吗?
最后更新于
这有帮助吗?
在传统的RNN Encoder-Decoder模型中,在编码的过程中,将时的状态和时刻的数据输入到时刻的RNN单元中,得到时刻的状态,经过个时间片后,得到长度等于隐节点数量的特征向量。在解码的过程中,将特征向量和上个时间片预测的输出输入到RNN的单元中,得到该时刻的输出,经过个时间片后得到输出结果。但在一些应用中,比如句子长度特别长的机器翻译场景中,传统的RNN Encoder-Decoder表现非常不理想。一个重要的原因是时刻的输出可能更关心输入序列的某些部分是什么内容而和其它部分是什么关系并不大。例如在机器翻译中,当前时间片的输出可能仅更注重原句子的某几个单词而不是整个句子。
这篇论文率先提出了Attention的思想,通过Attention机制,模型可以同时学习原句子和目标句子的对齐关系和翻译关系。在编码过程中,将原句子编码成一组特征向量的一个集合,在翻译时,每个时间片会在该集合自行选择特征向量的一个子集用于产生输出结果。
在这篇论文中,作者也是使用的RNN Encoder-Decoder结构。不同于传统的方式,在编码过程中,作者使用的是双向RNN(bi-RNN),每个RNN单元使用的是GRU。在解码过程中,使用的是基于Attention的GRU结构。算法结构如图1:
在解码的过程中,传统的RNN Encoder-Decoder的方式将整个句子的特征向量作为输入
双向RNN含有正向和反向两个方向,对于含有个时间片的源句子,正向的输入数据是,第个时间片的隐节点表示为
反向数据的输入序列是,第个时间片的隐节点表示为
其中使用的是GRU的单元,详见上一篇论文的讲解。则第个时间片的特征是前向和后向两个特征向量拼接到一起。
Attention模型是使用所有特征向量的加权和,通过对特征向量的权值的学习,我们可以使用对当前时间片最重要的特征向量的子集,即
其中是的加权和
其中是输出序列第个时间片的对齐模型,表示的是该时刻和输入数据每个时间片的相关程度。使用前一时刻的状态和第个输入数据计算得到,在作者的实验中,是使用的反正切tanh激活函数。
下图是通过可视化四组平行语料的值得到的图,值越大,表示两个数据相关性越强,图中的颜色越浅。