AI 自然语言处理基础
语言遇上神经网络——分词、词嵌入、RNN、Seq2Seq、注意力机制和子词分词。
Mav
01CH. 01
文本预处理——分词、词干提取、词形还原
语言是连续的,模型是离散的。预处理就是两者之间的桥。
开始阅读→
02CH. 02
词嵌入 — 从零实现 Word2Vec
一个词的含义取决于它的邻居。用这个想法训练一个浅层网络,几何结构就自然涌现了。
开始阅读→
03CH. 03
GloVe、FastText 与子词嵌入
Word2Vec 给每个词训练一个向量。GloVe 分解了共现矩阵。FastText 嵌入了词的碎片。BPE 架起了通往 Transformer 的桥。
开始阅读→
04CH. 04
用 CNN 和 RNN 处理文本
卷积学 n-gram,循环记上下文。两者都被注意力取代了,但在受限硬件上依然有用武之地。
开始阅读→
05CH. 05
序列到序列模型
两个 RNN 假装自己是翻译官。它们遇到的瓶颈,正是注意力机制存在的理由。
开始阅读→
06CH. 06
注意力机制——突破瓶颈的那一刻
解码器不再盯着一个压缩过的摘要苦苦辨认,而是可以回头看整个源序列。从这以后,一切都是注意力加工程。
开始阅读→
07CH. 07
子词分词——BPE、WordPiece、Unigram、SentencePiece
词级分词遇到生词就抓瞎,字符级分词又把序列长度炸上天。子词分词取了个折中——2026 年每个主流大模型都用它。
开始阅读→