前言

写在本书编写之前

从牛顿-莱布尼茨到深度学习的微积分

微积分自十七世纪诞生以来，一直是描述"变化"与"累积"的数学语言。牛顿用它解释行星轨道，麦克斯韦用它统一电磁理论，爱因斯坦用它弯曲时空。然而，在二十一世纪的最初几十年里，微积分面对了一个全新的应用领域：数据。

现代人工智能，特别是深度学习，处理的是高维空间中的数据点集。一个 $100 \times 100$ 像素的灰度图像，在数学上就是 $\mathbb{R}^{10000}$ 中的一个点；一段语音、一个蛋白质序列、一个社交网络的邻接矩阵，莫不如此。这些数据并非随机散布——它们通常"居住"在某个远低于环境维度的低维结构上。用数学语言说，数据近似位于一个流形上。

这催生了一个蓬勃发展的研究领域：流形学习与拓扑数据分析。从 ISOMAP 到 UMAP，从持续同调到 Mapper 算法，现代数据科学越来越依赖于微分几何和代数拓扑的工具。然而，掌握这些工具的数学门槛，对于仅有初等微积分和线性代数背景的读者而言，可能显得高不可攀。

本书正是为这样的读者而写。

从初等微积分到流形上的微积分：一道认知鸿沟

翻开任何一本标准的多元微积分教材，你会看到偏导数、重积分、格林公式、斯托克斯公式。这些定理看似各自独立，证明依赖于精巧的坐标计算。然而，当数学家试图将这些定理推广到弯曲的空间——流形——上时，他们发现必须从根本上重新组织语言。

这种重新组织带来了巨大的概念飞跃：

"向量"不再是一个自由漂浮的箭头，而是被固定在空间的每一个点上；
"微分"不再是一个无穷小量，而是一个线性映射，它接受方向，输出变化率；
"积分"不再是对无穷小块的数值求和，而是在微分形式这个更本质的自带变换规则的对象上进行；
"边界"不再是几何直观，而是一个满足 $\partial^2 = 0$ 的代数算子。

对于已经习惯于初等微积分思维的读者，这些新概念的出现顺序和动机常常令人困惑。为什么会定义这些对象？它们之间是什么关系？原有的定理如何在新语言下得到统一？

让我们以"积分"为例，具体说明这一认知跃迁。

一个具体例子：变量替换公式的两种理解

在初等微积分中，二重积分被表述为

\iint_D f(x,y) \, dx \, dy.

符号 $dx\,dy$ 被理解为"无穷小的面积元"。当我们做变量替换，比如从直角坐标 $(x,y)$ 换到极坐标 $(r,\theta)$，一个奇妙的公式出现：

dx\,dy = r \, dr \, d\theta.

这个 $r$ 从何而来？初等的解释是几何的：极坐标下的小网格不是一个矩形，而是一个扇环，其面积近似为 $r \, dr \, d\theta$。证明依赖于画图、近似、取极限。这个论证是正确的，但它将 $dx\,dy$ 与 $r\,dr\,d\theta$ 视为两个不同的几何对象，而 $r$ 是连接它们的桥梁。雅可比行列式是外加的修正因子。

微分形式提供了另一种看待同一事实的方式。

我们不再将 $dx\,dy$ 理解为一个"无穷小量"，而是定义一个数学对象 $dx \wedge dy$，它是一个 2-形式——一个将两个切向量映射为实数的双线性交错函数。符号 $\wedge$（楔积）不是普通的乘法，它捕获了面积元的定向性质：$dx \wedge dy = - dy \wedge dx$。

现在，考虑从极坐标到直角坐标的映射

f(r,\theta) = (r\cos\theta, \, r\sin\theta).

利用形式代数的规则，我们可以纯代数地计算：

f^*(dx \wedge dy) = r \, dr \wedge d\theta.

注意，等号右边的 $r$ 不是事后附加的几何修正因子，而是从映射 $f$ 的雅可比行列式中自动涌现的系数。更精确地说，$f^*(dx \wedge dy)$ 的定义本身——将坐标函数代入形式并进行楔积展开——就包含了变量的变换规则。雅可比行列式不是外加的，它已经内置于形式的结构之中。

"更本质"意味着什么？

现在我们可以回答这个问题了。

一个"被积函数"在数学上并不天然是 $f(x,y)\,dx\,dy$。它应该被理解为一个 2-形式 $\omega$。选择什么坐标系、用什么变量表达 $\omega$——是 $dx \wedge dy$ 还是 $dr \wedge d\theta$——只是对同一个对象的不同坐标表示。

关键在于：

旧视角：$dx\,dy$ 是一个几何量（面积元），变量替换时需要引入雅可比行列式来修正刻度。
新视角：$dx \wedge dy$ 本身就是一个携带变换规则的形式。当你"拉回"它时，雅可比行列式内在地出现在计算结果中。你不需要额外地记住一个规则——你做代数计算，规则自己出现。

因此，"积分是对微分形式的积分"这句话，将积分的本质从"对无穷小块的数值求和"提升为"对一个不依赖于坐标系选择的几何-代数对象进行配对"。坐标是什么，决定了这个形式的局部表达式会多出一个因子，但这个对象本身，以及它在整个区域上的积分值，是不变的。

总结为一句话：微分形式之所以"更本质"，是因为它把积分的对象从"需要外部规则来变换的数值表达式"变成了"自带变换规则的代数-几何对象"。 积分不再是对数值求和，而是对这些对象在整个区域上的代数配对。

这一视角的深远意义

当然，如果在 $\mathbb{R}^n$ 中做积分，两种视角都能得到正确答案。但是：

在弯曲空间（流形）上，没有全局的直角坐标。你无法定义一个统一的 $dx\,dy$ 去求和。但你可以定义微分形式。
当空间改变时，拉回运算 $f^*$ 天然告诉你积分如何变化。线积分、面积分、体积分，所有这些看似不同的"换元公式"在形式语言下是同一个运算。
斯托克斯定理 $\int_M d\omega = \int_{\partial M} \omega$ 之所以能用一个等式统一格林公式、散度定理、旋度定理，正是因为被积对象 $\omega$ 是形式，而不依赖于具体的维度或坐标系。

这正是整个理论大厦的蓝图：微分几何与物理中"客观性"的数学根基，不在于找到一个特殊的坐标系，而在于用不依赖于坐标选择的对象来表述定律。本书将逐步为你揭示这个蓝图的每一个细节。

本书的编写理念

本书的目标是架设一座从初等微积分到流形上的微积分的桥梁。我们假定读者已掌握：

一元函数的微积分（导数、黎曼积分、微积分基本定理），
基础的线性代数（矩阵运算、行列式、线性方程组的求解），
基本的集合论记号。

我们不假定读者熟悉抽象向量空间、拓扑空间或张量代数。这些工具将在需要时，由具体计算驱动，以自包含的方式引入。

本书的编写遵循以下原则：

1. 数学对象有明确的类型。

这或许是本书与初等教材最根本的区别。在一元微积分中，$f'(a)$ 是一个数字；在多元微积分中，导数是一个线性映射。在流形上，1-形式与向量场属于不同的空间，尽管它们在 $\mathbb{R}^n$ 中常被混为一谈。本书坚持为每一个新定义的对象标注其"类型"——它属于哪个空间？它接受什么输入？它产生什么输出？这种习惯看似繁琐，实则是避免混淆的最有效手段。

2. "最佳线性近似"是贯穿全书的主题。

微分学的核心思想是：在足够小的尺度上，光滑的非线性对象可以被线性对象很好地近似。在一元情形，这是切线；在多元情形，这是雅可比矩阵定义的线性映射；在流形上，这是切空间之间的线性映射。本书始终强调这一视角，因为一旦读者内化了"微分 = 线性近似"的等式，链式法则、反函数定理、隐函数定理都会变得自然。

3. 区分需要内积的对象与不需要内积的对象。

在 $\mathbb{R}^n$ 中，因为有标准内积 $\langle \boldsymbol{x}, \boldsymbol{y} \rangle = \sum x^i y^i$，向量与余向量、梯度与微分常被等同。但在一般流形上，切空间没有自然的内积——它必须被额外地赋予。因此，本书在逻辑上先引入不依赖内积的概念（微分形式、外微分），后引入依赖内积的概念（梯度、散度、旋度）。这一定序的用意是让读者清楚地看到：哪些结构是"天生"的，哪些是"后天"赋予的。

4. 从已知的定理出发，回溯定义的必要性。

抽象定义的动机往往来自对具体定理的重新审视。格林公式

\iint_D \left( \frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} \right) dx dy = \oint_{\partial D} P dx + Q dy

的左边是一个二重积分，右边是一个曲线积分。它暗示了被积表达式之间存在着对应关系：$dx\,dy$ 与 $dx, dy$，以及微分算子 $d$ 的作用。本书的策略是：先仔细分析读者已经知道的经典定理，然后指出，为了将这些定理统一为一条简单的公式——$\int_M d\omega = \int_{\partial M} \omega$——我们必须发明微分形式和流形。定义不是从天而降的，它们是为解决问题而生的。

5. 对偶性是一条隐藏的线索。

在初等微积分中，我们习惯把"求面积"与"行列式"联系在一起。但为什么斯托克斯定理的现代形式如此简洁？一个重要的原因是，它利用了向量空间与对偶空间之间的配对。链 $\partial c$ 与形式 $\omega$ 正是通过 $\int_{\partial c} \omega$ 这种"对偶配对"结合在一起。本书将逐步揭示：外微分 $d$ 是边界算子 $\partial$ 的伴随算子，斯托克斯定理本质上是在陈述这一伴随关系。理解这一点，就理解了整个理论大厦的蓝图。

本书的呈现方式

为贯彻上述理念，本书采用了若干独特的呈现方式：

旁白框：在正文定义旁边，用方框标注关键的类型信息、常见误解及与初等微积分的对应关系。
概念翻译器：每章末尾设有一个表格，将初等微积分中的术语、符号与本书引入的现代术语并置对照。
双层练习：练习分为"计算验证型"与"概念辨析型"两类。后者要求读者判断数学陈述的正误并给出理由，直击常见混淆点。
螺旋上升结构：全书分为四个部分，每一部分在上一部分的基础上引入一层新的抽象。读者不必在初次接触时就完全理解所有概念——它们将在后续应用中反复出现，逐步深化。

面向人工智能时代的读者

在写作本书的过程中，我们始终意识到一部分潜在读者的目标：他们希望理解数据背后的几何结构，希望读懂现代机器学习论文中出现的流形假设、黎曼优化、信息几何等概念，希望将拓扑数据分析应用于实际问题。

因此，虽然本书的主体是严格的数学定义与证明，我们将在各部分的结尾添加"应用注记"，简要说明该部分的数学工具在数据科学中的潜在应用。例如：

在介绍了切空间与局部坐标后，我们会讨论流形假设：高维数据点如何被建模为低维流形上的样本。
在介绍了黎曼度量后，我们会提及等距嵌入与 ISOMAP 算法背后的数学原理。
在建立了外微分与斯托克斯定理的统一框架后，我们会暗示这与拓扑数据分析中的持续同调有何联系。

这些注记不要求读者具备任何机器学习的预备知识，只需将其视为数学理论在当代科学中焕发新生的例证。

如何使用本书

对于自学者：建议按顺序阅读，不要跳过练习。如果某一定理或定义的动机一时不够清晰，请忍耐——答案往往在几页之后的计算或定理中浮现。

对于教师：本书可作为本科高年级"微分几何引论"或"流形上的微积分"课程的教材，也可作为研究生"机器学习数学基础"课程的补充读物。一学期的课程可涵盖第一至第三部分（约前八章），一学年的课程可完整讲授全部四部分。

对于已有机器学习背景的读者：你可以在阅读数学定义的同时，翻阅每部分末尾的应用注记。当抽象的切丛概念与具体的数据嵌入产生联系时，你可能会发现两者之间的自然对应，这正是数学统一性的魅力所在。

微积分的历史是一部不断"抽象化"与"统一化"的历史。牛顿与莱布尼茨发明了运算方法，柯西与魏尔斯特拉斯赋予了它严格的根基，嘉当与外尔将它的疆域从平坦的欧氏空间拓展到了弯曲的流形。本书希望传递的，不仅是这趟旅程的终点风景，更是沿途每一步的思考动机与逻辑脉络。

我们出发吧。