主题
字号

AI Transformer 深度剖析

改变一切的架构——Self-Attention、Multi-Head Attention、位置编码、完整 Transformer、BERT 和 GPT。

Mav
01CH. 01

为什么是 Transformer——RNN 的三大致命伤

RNN 一次处理一个 token,Transformer 一次处理所有 token。这个架构赌注改变了 2017 年之后深度学习的全部 scaling 曲线。

开始阅读
02CH. 02

从零实现自注意力

注意力就是一张查找表——每个词都在问「谁对我重要?」,然后自己学出答案。

开始阅读
03CH. 03

多头注意力

一个注意力头一次只能学一种关系。八个头学八种。头几乎不花额外开销,多来几个。

开始阅读
04CH. 04

位置编码(Positional Encoding)——正弦、RoPE、ALiBi

注意力机制对顺序完全不敏感。"The cat sat on the mat" 和 "mat the on sat cat the" 在没有位置信号的情况下产生完全相同的输出。3 种算法修复了这个问题——每种对"位置"的定义下了不同的赌注。

开始阅读
05CH. 05

完整的 Transformer — 编码器 + 解码器

注意力(Attention)是主角。其他一切——残差、归一化、前馈、交叉注意力——都是脚手架,让你能把它叠得很深。

开始阅读
06CH. 06

BERT — 掩码语言建模

GPT 预测下一个词,BERT 预测被挡住的词。一句话的差别——却催生了半个十年里所有和 embedding 沾边的东西。

开始阅读
07CH. 07

GPT — 因果语言建模(Causal Language Modeling)

BERT 能看到两边,GPT 只能看到过去。那个三角形掩码(triangle mask)是现代 AI 里影响最深远的一行代码。

开始阅读