Neural Machine Translation by Jointly Learning to Align and Translate

简介

在传统的RNN Encoder-Decoder模型中,在编码的过程中,将t1t-1时的状态h<t1>h_{<t-1>}tt时刻的数据x<t>x_{<t>}输入到tt时刻的RNN单元中,得到tt时刻的状态h<t>h_{<t>},经过TT个时间片后,得到长度等于隐节点数量的特征向量c\mathbf{c}。在解码的过程中,将特征向量c\mathbf{c}和上个时间片预测的输出y<t1>y_{<t'-1>}输入到RNN的单元中,得到该时刻的输出y<t>y_{<t'>},经过TT'个时间片后得到输出结果。但在一些应用中,比如句子长度特别长的机器翻译场景中,传统的RNN Encoder-Decoder表现非常不理想。一个重要的原因是tt'时刻的输出可能更关心输入序列的某些部分是什么内容而和其它部分是什么关系并不大。例如在机器翻译中,当前时间片的输出可能仅更注重原句子的某几个单词而不是整个句子。

这篇论文率先提出了Attention的思想,通过Attention机制,模型可以同时学习原句子和目标句子的对齐关系和翻译关系。在编码过程中,将原句子编码成一组特征向量的一个集合,在翻译时,每个时间片会在该集合自行选择特征向量的一个子集用于产生输出结果。

详解

在这篇论文中,作者也是使用的RNN Encoder-Decoder结构。不同于传统的方式,在编码过程中,作者使用的是双向RNN(bi-RNN),每个RNN单元使用的是GRU。在解码过程中,使用的是基于Attention的GRU结构。算法结构如图1:

1.1 Encoder

双向RNN含有正向和反向两个方向,对于含有TT个时间片的源句子XT={x1,x2,...,xT}X^T = \{x_1, x_2, ..., x_T\},正向的输入数据是x1x1...xTx_1 \rightarrow x_1 \rightarrow ... \rightarrow x_T,第tt个时间片的隐节点ht\vec{h}_t表示为

h<t>=f(h<t1>,x<t>)\vec{h}_{<t>} = f(\vec{h}_{<t-1>}, x_{<t>})

反向数据的输入序列是xTxT1...x1x_T \rightarrow x_{T-1} \rightarrow ... \rightarrow x_1,第tt个时间片的隐节点ht\vec{h}'_t表示为

h<t>=f(h<t+1>,x<t>)\vec{h}'_{<t>} = f(\vec{h}'_{<t+1>}, x_{<t>})

其中ff使用的是GRU的单元,详见上一篇论文的讲解。则第tt个时间片的特征h<t>h_{<t>}是前向和后向两个特征向量拼接到一起。

h<t>=[ht;ht]Th_{<t>} = [\vec{h}_t; \vec{h}'_t]^T

1.2 Decoder

在解码的过程中,传统的RNN Encoder-Decoder的方式将整个句子的特征向量作为输入

s<t>=f(s<t1>,y<t1>,c)s_{<t>} = f(s_{<t-1>}, y_{<t-1>}, c)

Attention模型是使用所有特征向量的加权和,通过对特征向量的权值的学习,我们可以使用对当前时间片最重要的特征向量的子集cic_i,即

s<t>=f(s<t1>,y<t1>,ci)s_{<t>} = f(s_{<t-1>}, y_{<t-1>}, c_i)

其中cic_ih<t>h_{<t>}的加权和

ci=t=1Tαithtc_i = \sum^{T}_{t=1} \alpha_{it}h_t
αit=exp(eit)k=1Texp(eik)\alpha_{it} = \frac{exp(e_{it})}{\sum_{k=1}^Texp(e_{ik})}
eit=a(s<i1>,ht)e_{it} = a(s_{<i-1>}, h_t)

其中eite_{it}是输出序列第ii个时间片的对齐模型,表示的是该时刻和输入数据每个时间片的相关程度。使用前一时刻的状态s<i1>s_{<i-1>}和第tt个输入数据hth_t计算得到,在作者的实验中,aa是使用的反正切tanh激活函数。

1.3 实验数据可视化

下图是通过可视化四组平行语料的α\alpha值得到的图,α\alpha值越大,表示两个数据相关性越强,图中的颜色越浅。

最后更新于