从零开始学 Transformer

从数学直觉到 Transformer 架构——每个算法从零手写一遍，再用框架跑一遍

5 本书 · 预计 50 小时

第 1 站

数学底座：线代、微积分、概率、优化

每个 AI 算法背后的数学直觉——线性代数、微积分、概率、优化、张量运算和数值稳定性。

向量运算和梯度是后面所有网络的语言。会了这些，就能开始搭第一个神经元。

第 2 站

MLP：感知机、反向传播、写一个 mini 框架

从第一性原理搭建神经网络——感知机、反向传播、激活函数、优化器、正则化，最后造一个 mini 框架。

MLP 只看到扁平的输入——但图像有空间结构。CNN 用卷积核来捕获局部模式。

第 3 站

CNN：卷积、经典架构、图像分类

从像素到 CNN——图像基础、从零写卷积、经典架构、图像分类和迁移学习。

CNN 解决了「空间」，但文本和时间序列有「顺序」。RNN 和 Attention 就是为序列而生的。

第 4 站

RNN：词嵌入、序列模型、注意力机制

语言遇上神经网络——分词、词嵌入、RNN、Seq2Seq、注意力机制和子词分词。

RNN 有长距离遗忘问题。Transformer 用 Self-Attention 一步到位看全局——这就是现代 LLM 的基础。

第 5 站

Transformer：Self-Attention → BERT → GPT

改变一切的架构——Self-Attention、Multi-Head Attention、位置编码、完整 Transformer、BERT 和 GPT。