主流的序列推导模型是基于复杂的循环或卷积神经网络,它们包括一个编码器和一个解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单的网络架构–Transformer,完全基于注意力机制,完全不需要递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更胜一筹,同时可并行性更强,所需的训练时间也大大减少。我们的模型在WMT 2014英译德任务上实现了28.4 BLEU,比现有的最佳结果(包括合奏)提高了2 BLEU以上。在WMT 2014英语到法语翻译任务上,我们的模型在8个GPU上训练3.5天后,建立了一个新的单模型最先进的BLEU分数,达到41.0,这只是文献中最佳模型训练成本的一小部分。