Transformer：注意力机制如何刷新机器翻译速度与精度

Transformer是一种新型的神经网络架构，完全基于注意力机制，摒弃了传统的循环和卷积层。该模型在两个机器翻译任务上取得了显著的性能提升，不仅质量优越，而且训练速度更快、并行化程度更高，刷新了多项现有最佳记录。

整体结构: 遵循标准的编码器-解码器结构，但完全由堆叠的自注意力层和逐点全连接层构成。
编码器: 由 N=6 个相同层组成，每层包含一个多头自注意力机制和一个逐点全连接前馈网络，并应用残差连接和层归一化。
解码器: 也由 N=6 个相同层组成，除了编码器中的两个子层外，还额外包含一个对编码器输出执行多头注意力的子层；解码器自注意力层通过掩码防止关注未来位置。
维度: 所有子层和嵌入层输出维度 dmodel = 512。

注意力函数定义: 将查询 (Query) 和一组键值对 (Key-Value pairs) 映射到一个输出，输出是值的加权和，权重由查询与对应键的兼容性函数计算。
缩放点积注意力 (Scaled Dot-Product Attention): 计算查询和键的点积，除以 sqrt(dk) 进行缩放，然后应用 Softmax 函数获得权重，再与值相乘。
多头注意力 (Multi-Head Attention): 将查询、键、值线性投影 h 次（本文使用 h=8 头），在每个投影版本上并行执行注意力函数，然后将所有头的输出拼接并再次投影。这使得模型能同时关注来自不同表示子空间的信息。
模型中的应用:
- 编码器-解码器注意力: 解码器中的查询来自前一个解码器层，键和值来自编码器输出。
- 编码器自注意力: 键、值、查询均来自编码器上一层的输出。
- 解码器自注意力: 键、值、查询均来自解码器上一层的输出，并通过掩码防止“偷看”未来信息。

并行化与计算效率: 自注意力层将所有位置连接起来，序列操作数为常数 O(1)，显著优于循环网络（O(n)）和卷积网络，实现了更高的并行化和更快的训练速度。
长距离依赖: 通过缩短网络中任意两个输入输出位置之间的路径长度，更容易学习长距离依赖。
位置编码 (Positional Encoding): 由于模型不包含循环或卷积，通过将正弦和余弦函数生成的位置编码添加到输入嵌入中，为模型提供序列中词语的相对或绝对位置信息。
逐点前馈网络 (Position-wise Feed-Forward Networks): 每层包含一个两层全连接网络，应用于每个位置，增强模型非线性表达能力。

机器翻译性能:
- WMT 2014 英德翻译：大型 Transformer 模型在 8 块 P100 GPU 上训练 3.5 天后，BLEU 分数达到 28.4，超越了所有现有最佳模型和集成模型 2.0 BLEU。
- WMT 2014 英法翻译：大型 Transformer 模型 BLEU 分数达到 41.8，创下新的单模型最佳记录。
训练成本: 相比现有竞争模型，Transformer 模型的训练成本显著降低。
泛化到其他任务: 成功应用于英语成分句法分析任务，在仅使用华尔街日报 (WSJ) 数据集和半监督设置下均表现出色，超越了多数现有模型，证明了其强大的泛化能力。