前言

写在本书编写之前

从牛顿-莱布尼茨到深度学习的微积分

微积分自十七世纪诞生以来,一直是描述"变化"与"累积"的数学语言。牛顿用它解释行星轨道,麦克斯韦用它统一电磁理论,爱因斯坦用它弯曲时空。然而,在二十一世纪的最初几十年里,微积分面对了一个全新的应用领域:数据

现代人工智能,特别是深度学习,处理的是高维空间中的数据点集。一个 $100 \times 100$ 像素的灰度图像,在数学上就是 $\mathbb{R}^{10000}$ 中的一个点;一段语音、一个蛋白质序列、一个社交网络的邻接矩阵,莫不如此。这些数据并非随机散布——它们通常"居住"在某个远低于环境维度的低维结构上。用数学语言说,数据近似位于一个流形上

这催生了一个蓬勃发展的研究领域:流形学习与拓扑数据分析。从 ISOMAP 到 UMAP,从持续同调到 Mapper 算法,现代数据科学越来越依赖于微分几何和代数拓扑的工具。然而,掌握这些工具的数学门槛,对于仅有初等微积分和线性代数背景的读者而言,可能显得高不可攀。

本书正是为这样的读者而写。

从初等微积分到流形上的微积分:一道认知鸿沟

翻开任何一本标准的多元微积分教材,你会看到偏导数、重积分、格林公式、斯托克斯公式。这些定理看似各自独立,证明依赖于精巧的坐标计算。然而,当数学家试图将这些定理推广到弯曲的空间——流形——上时,他们发现必须从根本上重新组织语言。

这种重新组织带来了巨大的概念飞跃:

对于已经习惯于初等微积分思维的读者,这些新概念的出现顺序和动机常常令人困惑。为什么会定义这些对象?它们之间是什么关系?原有的定理如何在新语言下得到统一?

让我们以"积分"为例,具体说明这一认知跃迁。

一个具体例子:变量替换公式的两种理解

在初等微积分中,二重积分被表述为

$$\iint_D f(x,y) \, dx \, dy.$$

符号 $dx\,dy$ 被理解为"无穷小的面积元"。当我们做变量替换,比如从直角坐标 $(x,y)$ 换到极坐标 $(r,\theta)$,一个奇妙的公式出现:

$$dx\,dy = r \, dr \, d\theta.$$

这个 $r$ 从何而来?初等的解释是几何的:极坐标下的小网格不是一个矩形,而是一个扇环,其面积近似为 $r \, dr \, d\theta$。证明依赖于画图、近似、取极限。这个论证是正确的,但它将 $dx\,dy$ 与 $r\,dr\,d\theta$ 视为两个不同的几何对象,而 $r$ 是连接它们的桥梁。雅可比行列式是外加的修正因子

微分形式提供了另一种看待同一事实的方式。

我们不再将 $dx\,dy$ 理解为一个"无穷小量",而是定义一个数学对象 $dx \wedge dy$,它是一个 2-形式——一个将两个切向量映射为实数的双线性交错函数。符号 $\wedge$(楔积)不是普通的乘法,它捕获了面积元的定向性质:$dx \wedge dy = - dy \wedge dx$。

现在,考虑从极坐标到直角坐标的映射

$$f(r,\theta) = (r\cos\theta, \, r\sin\theta).$$

利用形式代数的规则,我们可以纯代数地计算:

$$f^*(dx \wedge dy) = r \, dr \wedge d\theta.$$

注意,等号右边的 $r$ 不是事后附加的几何修正因子,而是从映射 $f$ 的雅可比行列式中自动涌现的系数。更精确地说,$f^*(dx \wedge dy)$ 的定义本身——将坐标函数代入形式并进行楔积展开——就包含了变量的变换规则。雅可比行列式不是外加的,它已经内置于形式的结构之中。

"更本质"意味着什么?

现在我们可以回答这个问题了。

一个"被积函数"在数学上并不天然是 $f(x,y)\,dx\,dy$。它应该被理解为一个 2-形式 $\omega$。选择什么坐标系、用什么变量表达 $\omega$——是 $dx \wedge dy$ 还是 $dr \wedge d\theta$——只是对同一个对象的不同坐标表示。

关键在于:

因此,"积分是对微分形式的积分"这句话,将积分的本质从"对无穷小块的数值求和"提升为"对一个不依赖于坐标系选择的几何-代数对象进行配对"。坐标是什么,决定了这个形式的局部表达式会多出一个因子,但这个对象本身,以及它在整个区域上的积分值,是不变的。

总结为一句话:微分形式之所以"更本质",是因为它把积分的对象从"需要外部规则来变换的数值表达式"变成了"自带变换规则的代数-几何对象"。 积分不再是对数值求和,而是对这些对象在整个区域上的代数配对。

这一视角的深远意义

当然,如果在 $\mathbb{R}^n$ 中做积分,两种视角都能得到正确答案。但是:

  1. 弯曲空间(流形)上,没有全局的直角坐标。你无法定义一个统一的 $dx\,dy$ 去求和。但你可以定义微分形式。
  2. 当空间改变时,拉回运算 $f^*$ 天然告诉你积分如何变化。线积分、面积分、体积分,所有这些看似不同的"换元公式"在形式语言下是同一个运算
  3. 斯托克斯定理 $\int_M d\omega = \int_{\partial M} \omega$ 之所以能用一个等式统一格林公式、散度定理、旋度定理,正是因为被积对象 $\omega$ 是形式,而不依赖于具体的维度或坐标系。

这正是整个理论大厦的蓝图:微分几何与物理中"客观性"的数学根基,不在于找到一个特殊的坐标系,而在于用不依赖于坐标选择的对象来表述定律。本书将逐步为你揭示这个蓝图的每一个细节。

本书的编写理念

本书的目标是架设一座从初等微积分到流形上的微积分的桥梁。我们假定读者已掌握:

我们假定读者熟悉抽象向量空间、拓扑空间或张量代数。这些工具将在需要时,由具体计算驱动,以自包含的方式引入。

本书的编写遵循以下原则:

1. 数学对象有明确的类型。

这或许是本书与初等教材最根本的区别。在一元微积分中,$f'(a)$ 是一个数字;在多元微积分中,导数是一个线性映射。在流形上,1-形式与向量场属于不同的空间,尽管它们在 $\mathbb{R}^n$ 中常被混为一谈。本书坚持为每一个新定义的对象标注其"类型"——它属于哪个空间?它接受什么输入?它产生什么输出?这种习惯看似繁琐,实则是避免混淆的最有效手段。

2. "最佳线性近似"是贯穿全书的主题。

微分学的核心思想是:在足够小的尺度上,光滑的非线性对象可以被线性对象很好地近似。在一元情形,这是切线;在多元情形,这是雅可比矩阵定义的线性映射;在流形上,这是切空间之间的线性映射。本书始终强调这一视角,因为一旦读者内化了"微分 = 线性近似"的等式,链式法则、反函数定理、隐函数定理都会变得自然。

3. 区分需要内积的对象与不需要内积的对象。

在 $\mathbb{R}^n$ 中,因为有标准内积 $\langle \boldsymbol{x}, \boldsymbol{y} \rangle = \sum x^i y^i$,向量与余向量、梯度与微分常被等同。但在一般流形上,切空间没有自然的内积——它必须被额外地赋予。因此,本书在逻辑上引入不依赖内积的概念(微分形式、外微分),引入依赖内积的概念(梯度、散度、旋度)。这一定序的用意是让读者清楚地看到:哪些结构是"天生"的,哪些是"后天"赋予的。

4. 从已知的定理出发,回溯定义的必要性。

抽象定义的动机往往来自对具体定理的重新审视。格林公式

$$\iint_D \left( \frac{\partial Q}{\partial x} - \frac{\partial P}{\partial y} \right) dx dy = \oint_{\partial D} P dx + Q dy$$

的左边是一个二重积分,右边是一个曲线积分。它暗示了被积表达式之间存在着对应关系:$dx\,dy$ 与 $dx, dy$,以及微分算子 $d$ 的作用。本书的策略是:先仔细分析读者已经知道的经典定理,然后指出,为了将这些定理统一为一条简单的公式——$\int_M d\omega = \int_{\partial M} \omega$——我们必须发明微分形式和流形。定义不是从天而降的,它们是为解决问题而生的。

5. 对偶性是一条隐藏的线索。

在初等微积分中,我们习惯把"求面积"与"行列式"联系在一起。但为什么斯托克斯定理的现代形式如此简洁?一个重要的原因是,它利用了向量空间与对偶空间之间的配对。链 $\partial c$ 与形式 $\omega$ 正是通过 $\int_{\partial c} \omega$ 这种"对偶配对"结合在一起。本书将逐步揭示:外微分 $d$ 是边界算子 $\partial$ 的伴随算子,斯托克斯定理本质上是在陈述这一伴随关系。理解这一点,就理解了整个理论大厦的蓝图。

本书的呈现方式

为贯彻上述理念,本书采用了若干独特的呈现方式:

面向人工智能时代的读者

在写作本书的过程中,我们始终意识到一部分潜在读者的目标:他们希望理解数据背后的几何结构,希望读懂现代机器学习论文中出现的流形假设、黎曼优化、信息几何等概念,希望将拓扑数据分析应用于实际问题。

因此,虽然本书的主体是严格的数学定义与证明,我们将在各部分的结尾添加"应用注记",简要说明该部分的数学工具在数据科学中的潜在应用。例如:

这些注记不要求读者具备任何机器学习的预备知识,只需将其视为数学理论在当代科学中焕发新生的例证。

如何使用本书

对于自学者:建议按顺序阅读,不要跳过练习。如果某一定理或定义的动机一时不够清晰,请忍耐——答案往往在几页之后的计算或定理中浮现。

对于教师:本书可作为本科高年级"微分几何引论"或"流形上的微积分"课程的教材,也可作为研究生"机器学习数学基础"课程的补充读物。一学期的课程可涵盖第一至第三部分(约前八章),一学年的课程可完整讲授全部四部分。

对于已有机器学习背景的读者:你可以在阅读数学定义的同时,翻阅每部分末尾的应用注记。当抽象的切丛概念与具体的数据嵌入产生联系时,你可能会发现两者之间的自然对应,这正是数学统一性的魅力所在。


微积分的历史是一部不断"抽象化"与"统一化"的历史。牛顿与莱布尼茨发明了运算方法,柯西与魏尔斯特拉斯赋予了它严格的根基,嘉当与外尔将它的疆域从平坦的欧氏空间拓展到了弯曲的流形。本书希望传递的,不仅是这趟旅程的终点风景,更是沿途每一步的思考动机与逻辑脉络。

我们出发吧。