AI 自然语言处理基础

语言遇上神经网络——分词、词嵌入、RNN、Seq2Seq、注意力机制和子词分词。

Mav

语言是连续的，模型是离散的。预处理就是两者之间的桥。

一个词的含义取决于它的邻居。用这个想法训练一个浅层网络，几何结构就自然涌现了。

Word2Vec 给每个词训练一个向量。GloVe 分解了共现矩阵。FastText 嵌入了词的碎片。BPE 架起了通往 Transformer 的桥。

卷积学 n-gram，循环记上下文。两者都被注意力取代了，但在受限硬件上依然有用武之地。

两个 RNN 假装自己是翻译官。它们遇到的瓶颈，正是注意力机制存在的理由。

解码器不再盯着一个压缩过的摘要苦苦辨认，而是可以回头看整个源序列。从这以后，一切都是注意力加工程。

词级分词遇到生词就抓瞎，字符级分词又把序列长度炸上天。子词分词取了个折中——2026 年每个主流大模型都用它。