编辑“︁Attention Is All You Need”︁（章节）

==提出的方法==
论文最著名的贡献是提出了Transformer架构，该架构构成现代[[大语言模型]]的基础。其核心优势在于比前代模型更强的并行计算能力，可通过GPU加速训练过程，从而缩短训练时间并支持更大规模模型。

论文为Transformer架构引入了以下机制：
===缩放点积注意力与自注意力===
采用缩放点积注意力及自注意力机制取代[[循环神经网络]]或[[长短期记忆|长短期记忆网络]]（依赖递归结构），显著提升性能。论文将缩放点积注意力定义为：
<math>{\rm Attention}(Q,K,V) := {\rm softmax}\left(\frac{Q\times K^T}{\sqrt{d_{k}}}\right)\times V</math>
其中<math>Q</math>、<math>K</math>、<math>V</math>分别为查询、键、值矩阵，<math>d_k</math>为值向量的维度。

由于该机制基于同源（输入序列/上下文窗口）產生的Q、K、V矩阵，完全消除了对RNN的依赖，确保架构可并行化。此设计区别于2014年原始注意力机制。论文还讨论了针对键向量维度（<math>d_{k}</math>，初始设为64）的缩放因子优化。

在翻译任务中，Q、K矩阵通常对应源语言嵌入，而V矩阵对应目标语言。

===多头注意力===
自注意力机制中，Q、K、V矩阵动态產生（受上下文窗口限制），使模型能分步聚焦输入序列的不同部分。多头注意力通过并行多组注意力头增强此过程，每组学习Q、K、V矩阵的不同线性投影，从而同步捕获词间关系的多维特征。

多头输出经拼接和线性变换后產生最终结果。

===位置编码===
因Transformer非序列模型，论文采用正弦/余弦函数将词序信息编码至嵌入向量：
<math>PE_{({\rm pos},2i)} = \sin({\rm pos}/{10000}^{2i/d_{\rm model}})</math>
<math>PE_{({\rm pos},2i+1)} = \cos({\rm pos}/{10000}^{2i/d_{\rm model}})</math>
其中<math>{\rm pos}</math>、<math>i</math>、<math>{d_{\rm model}}</math>分别表示词位置、当前维度索引和模型维度。正弦函数用于偶数索引，余弦函数用于奇数索引。產生的<math>PE</math>嵌入会加入对应位置的词向量。论文解释选择此方法的原因：
“正弦编码可使模型外推至训练时未见的更长序列。”<ref name="2017_Attention_Is_All_You_Need" />