主题
字号

PDF:最熟悉的陌生人

从 PostScript 到 AI 时代,拆解你每天都在用却从未真正理解的文件格式——PDF 的历史、结构、渲染、生成与未来困境。

Mav
01CH. 01

纸的数字替身:PDF 的诞生

从 Xerox PARC 到 Adobe,从 PostScript 到 PDF——一个'让屏幕上的东西和打印出来一模一样'的执念如何改变了世界。

开始阅读
02CH. 02

打开文件的那一瞬间:PDF 的内部结构

Header、Body、Xref、Trailer——拆解一个真实的 PDF 文件,理解浏览器为什么能秒开第 50 页。

开始阅读
03CH. 03

不是文字,是画:PDF 的渲染模型

PDF 不存储'这一行是什么文字',它存储的是'在坐标 (x,y) 画 glyph ID 42'。理解这一点,后面所有问题迎刃而解。

开始阅读
04CH. 04

字体的战争与嵌入

Type 1、TrueType、OpenType 三十年混战,字体子集化与 CMap 映射,以及乱码的根本原因。

开始阅读
05CH. 05

快与慢:PDF 阅读器的架构

Sumatra 为什么秒开,WPS 为什么卡 5 秒,浏览器又是怎么做到的——拆解不同 PDF 渲染引擎的设计决策。

开始阅读
06CH. 06

生成一份 PDF 有多少种路径

Word、LaTeX、Typst、HTML→PDF——不同的生成方式产出结构完全不同的 PDF,有些对机器友好,有些是灾难。

开始阅读
07CH. 07

PDF 不只能看:交互、表单与安全

PDF 里能跑 JavaScript、能嵌表单、能带数字签名、也能携带病毒——一个'文档格式'为什么变得如此危险。

开始阅读
08CH. 08

OCR、扫描件与文字层

图片 PDF、文字 PDF、OCR 增强 PDF——看起来一样的两份 PDF,对机器来说可能是天壤之别。

开始阅读
09CH. 09

AI 时代:为什么 PDF 成了绊脚石

RAG 系统为什么恨 PDF、文字层乱序与表格平坦化、主流解析方案对比,以及 PDF 有没有可能被替代。

开始阅读