AI Transformer 深度剖析
改变一切的架构——Self-Attention、Multi-Head Attention、位置编码、完整 Transformer、BERT 和 GPT。
Mav
01CH. 01
为什么是 Transformer——RNN 的三大致命伤
RNN 一次处理一个 token,Transformer 一次处理所有 token。这个架构赌注改变了 2017 年之后深度学习的全部 scaling 曲线。
开始阅读→
02CH. 02
从零实现自注意力
注意力就是一张查找表——每个词都在问「谁对我重要?」,然后自己学出答案。
开始阅读→
03CH. 03
多头注意力
一个注意力头一次只能学一种关系。八个头学八种。头几乎不花额外开销,多来几个。
开始阅读→
04CH. 04
位置编码(Positional Encoding)——正弦、RoPE、ALiBi
注意力机制对顺序完全不敏感。"The cat sat on the mat" 和 "mat the on sat cat the" 在没有位置信号的情况下产生完全相同的输出。3 种算法修复了这个问题——每种对"位置"的定义下了不同的赌注。
开始阅读→
05CH. 05
完整的 Transformer — 编码器 + 解码器
注意力(Attention)是主角。其他一切——残差、归一化、前馈、交叉注意力——都是脚手架,让你能把它叠得很深。
开始阅读→
06CH. 06
BERT — 掩码语言建模
GPT 预测下一个词,BERT 预测被挡住的词。一句话的差别——却催生了半个十年里所有和 embedding 沾边的东西。
开始阅读→
07CH. 07
GPT — 因果语言建模(Causal Language Modeling)
BERT 能看到两边,GPT 只能看到过去。那个三角形掩码(triangle mask)是现代 AI 里影响最深远的一行代码。
开始阅读→