从零开始学 Transformer
从数学直觉到 Transformer 架构——每个算法从零手写一遍,再用框架跑一遍
5 本书
·
预计 50 小时
第 1 站
AI 数学基础
数学底座:线代、微积分、概率、优化
每个 AI 算法背后的数学直觉——线性代数、微积分、概率、优化、张量运算和数值稳定性。
向量运算和梯度是后面所有网络的语言。会了这些,就能开始搭第一个神经元。
第 2 站
AI 深度学习核心
MLP:感知机、反向传播、写一个 mini 框架
从第一性原理搭建神经网络——感知机、反向传播、激活函数、优化器、正则化,最后造一个 mini 框架。
MLP 只看到扁平的输入——但图像有空间结构。CNN 用卷积核来捕获局部模式。
第 3 站
AI 计算机视觉
CNN:卷积、经典架构、图像分类
从像素到 CNN——图像基础、从零写卷积、经典架构、图像分类和迁移学习。
CNN 解决了「空间」,但文本和时间序列有「顺序」。RNN 和 Attention 就是为序列而生的。
第 4 站
AI 自然语言处理基础
RNN:词嵌入、序列模型、注意力机制
语言遇上神经网络——分词、词嵌入、RNN、Seq2Seq、注意力机制和子词分词。
RNN 有长距离遗忘问题。Transformer 用 Self-Attention 一步到位看全局——这就是现代 LLM 的基础。