
Transformer:纯注意力架构,机器翻译性能突破与速度飞跃
赵紫薇
1
7-19本文提出了一种名为Transformer的新型网络架构,它完全摒弃了传统的循环和卷积层,转而仅依赖注意力机制。这种创新设计使得模型在机器翻译任务上实现了显著的性能提升,同时训练速度更快,并行化程度更高。Transformer在多项翻译任务中取得了新的最先进(state-of-the-art)成果,并展现出良好的泛化能力。
Transformer架构概述
- 核心构成: Transformer遵循编码器-解码器结构,由堆叠的自注意力层和点式全连接层组成。
- 编码器: 包含N=6个相同层,每层由多头自注意力机制和前馈网络组成,并使用残差连接和层归一化。
- 解码器: 同样包含N=6个相同层,但在编码器层的基础上增加了一个第三个子层,用于对编码器输出执行多头注意力,并对自注意力层进行掩码处理以保持自回归特性。
- 位置编码: 由于模型不包含循环和卷积,通过将正弦和余弦函数生成的位置编码添加到输入嵌入中,以引入序列的顺序信息。
注意力机制
- 注意力函数: 将查询(query)和一组键值对(key-value pairs)映射到输出,输出是值的加权和,权重由查询与对应键的兼容性函数计算。
- 缩放点积注意力: 采用
softmax(QK^T/√dk)V
公式计算,通过除以√dk
进行缩放以防止点积过大导致梯度过小。 - 多头注意力: 通过将查询、键和值线性投影到不同的子空间,并行执行多个注意力函数(本文使用h=8个头),然后将结果拼接并再次投影,使模型能够从不同表示子空间中共同关注信息。
相较于现有模型的优势
- 更高的并行化: 彻底移除了顺序计算的循环结构,使得训练过程可以高度并行化,显著缩短训练时间。
- 更短的路径长度: 自注意力层在固定数量的顺序操作内连接序列的所有位置,相比循环网络(O(n))和卷积网络(O(logk(n))),能更有效地学习长距离依赖。
- 计算效率: 当序列长度
n
小于表示维度d
时,自注意力层比循环层更快,这在机器翻译的句子表示中常见。
实验结果与性能
- WMT 2014英德翻译: 大型Transformer模型BLEU得分达到28.4,超越了包括集成模型在内的所有现有最佳结果(提高2 BLEU以上)。
- WMT 2014英法翻译: 单一模型BLEU得分达到41.8,训练3.5天(8块GPU),训练成本远低于现有最佳模型。
- 泛化能力: 成功应用于英语句法分析任务,即使在小规模数据集上也能超越传统RNN模型,并获得92.7的F1分数。
训练设置与正则化
- 训练数据: WMT 2014英德(约450万句对)和英法(约3600万句对)数据集,使用字节对编码(BPE)或WordPiece。
- 硬件与时间: 使用8块NVIDIA P100 GPU,基本模型训练12小时(10万步),大型模型训练3.5天(30万步)。
- 优化器: 采用Adam优化器,并使用带有预热步(
warmup_steps=4000
)的变动学习率策略。 - 正则化: 采用残差Dropout(
Pdrop=0.1
)和标签平滑(ϵls=0.1
)来防止过拟合并提高模型性能。