AI Transformer 深度剖析

改变一切的架构——Self-Attention、Multi-Head Attention、位置编码、完整 Transformer、BERT 和 GPT。

Mav

RNN 一次处理一个 token，Transformer 一次处理所有 token。这个架构赌注改变了 2017 年之后深度学习的全部 scaling 曲线。

注意力就是一张查找表——每个词都在问「谁对我重要？」，然后自己学出答案。

一个注意力头一次只能学一种关系。八个头学八种。头几乎不花额外开销，多来几个。

注意力机制对顺序完全不敏感。"The cat sat on the mat" 和 "mat the on sat cat the" 在没有位置信号的情况下产生完全相同的输出。3 种算法修复了这个问题——每种对"位置"的定义下了不同的赌注。

注意力（Attention）是主角。其他一切——残差、归一化、前馈、交叉注意力——都是脚手架，让你能把它叠得很深。

GPT 预测下一个词，BERT 预测被挡住的词。一句话的差别——却催生了半个十年里所有和 embedding 沾边的东西。

BERT 能看到两边，GPT 只能看到过去。那个三角形掩码（triangle mask）是现代 AI 里影响最深远的一行代码。