Neural Machine Translation by Jointly Learning to Align and Translate

简介

这篇论文率先提出了Attention的思想,通过Attention机制,模型可以同时学习原句子和目标句子的对齐关系和翻译关系。在编码过程中,将原句子编码成一组特征向量的一个集合,在翻译时,每个时间片会在该集合自行选择特征向量的一个子集用于产生输出结果。

详解

在这篇论文中,作者也是使用的RNN Encoder-Decoder结构。不同于传统的方式,在编码过程中,作者使用的是双向RNN(bi-RNN),每个RNN单元使用的是GRU。在解码过程中,使用的是基于Attention的GRU结构。算法结构如图1:

1.1 Encoder

1.2 Decoder

在解码的过程中,传统的RNN Encoder-Decoder的方式将整个句子的特征向量作为输入

1.3 实验数据可视化

最后更新于