编辑“︁
Attention Is All You Need
”︁(章节)
跳转到导航
跳转到搜索
警告:
您没有登录。如果您进行任何编辑,您的IP地址会公开展示。如果您
登录
或
创建账号
,您的编辑会以您的用户名署名,此外还有其他益处。
反垃圾检查。
不要
加入这个!
==提出的方法== 论文最著名的贡献是提出了Transformer架构,该架构构成现代[[大语言模型]]的基础。其核心优势在于比前代模型更强的并行计算能力,可通过GPU加速训练过程,从而缩短训练时间并支持更大规模模型。 论文为Transformer架构引入了以下机制: ===缩放点积注意力与自注意力=== 采用缩放点积注意力及自注意力机制取代[[循环神经网络]]或[[长短期记忆|长短期记忆网络]](依赖递归结构),显著提升性能。论文将缩放点积注意力定义为: <math>{\rm Attention}(Q,K,V) := {\rm softmax}\left(\frac{Q\times K^T}{\sqrt{d_{k}}}\right)\times V</math> 其中<math>Q</math>、<math>K</math>、<math>V</math>分别为查询、键、值矩阵,<math>d_k</math>为值向量的维度。 由于该机制基于同源(输入序列/上下文窗口)產生的Q、K、V矩阵,完全消除了对RNN的依赖,确保架构可并行化。此设计区别于2014年原始注意力机制。论文还讨论了针对键向量维度(<math>d_{k}</math>,初始设为64)的缩放因子优化。 在翻译任务中,Q、K矩阵通常对应源语言嵌入,而V矩阵对应目标语言。 ===多头注意力=== 自注意力机制中,Q、K、V矩阵动态產生(受上下文窗口限制),使模型能分步聚焦输入序列的不同部分。多头注意力通过并行多组注意力头增强此过程,每组学习Q、K、V矩阵的不同线性投影,从而同步捕获词间关系的多维特征。 多头输出经拼接和线性变换后產生最终结果。 ===位置编码=== 因Transformer非序列模型,论文采用正弦/余弦函数将词序信息编码至嵌入向量: <math>PE_{({\rm pos},2i)} = \sin({\rm pos}/{10000}^{2i/d_{\rm model}})</math> <math>PE_{({\rm pos},2i+1)} = \cos({\rm pos}/{10000}^{2i/d_{\rm model}})</math> 其中<math>{\rm pos}</math>、<math>i</math>、<math>{d_{\rm model}}</math>分别表示词位置、当前维度索引和模型维度。正弦函数用于偶数索引,余弦函数用于奇数索引。產生的<math>PE</math>嵌入会加入对应位置的词向量。论文解释选择此方法的原因: “正弦编码可使模型外推至训练时未见的更长序列。”<ref name="2017_Attention_Is_All_You_Need" />
摘要:
请注意,所有对Local Chinese Wikipedia的贡献均可能会被其他贡献者编辑、修改或删除。如果您不希望您的文字作品被随意编辑,请不要在此提交。
您同时也向我们承诺,您提交的内容为您自己所创作,或是复制自公共领域或类似自由来源(详情请见
Project:著作权
)。
未经许可,请勿提交受著作权保护的作品!
取消
编辑帮助
(在新窗口中打开)
导航菜单
个人工具
未登录
讨论
贡献
创建账号
登录
命名空间
页面
讨论
大陆简体
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
编辑
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息