生成目标句子单词的过程成了下面的形式:

每个Ci可能对应着不同的源语句子单词的注意力分配概率分布

没有引入注意力机制的Encoder-Decoder的模型如下: