前言
写在本书编写之前
从牛顿-莱布尼茨到深度学习的微积分
微积分自十七世纪诞生以来,一直是描述"变化"与"累积"的数学语言。牛顿用它解释行星轨道,麦克斯韦用它统一电磁理论,爱因斯坦用它弯曲时空。然而,在二十一世纪的最初几十年里,微积分面对了一个全新的应用领域:数据。
现代人工智能,特别是深度学习,处理的是高维空间中的数据点集。一个 $100 \times 100$ 像素的灰度图像,在数学上就是 $\mathbb{R}^{10000}$ 中的一个点;一段语音、一个蛋白质序列、一个社交网络的邻接矩阵,莫不如此。这些数据并非随机散布——它们通常"居住"在某个远低于环境维度的低维结构上。用数学语言说,数据近似位于一个流形上。
这催生了一个蓬勃发展的研究领域:流形学习与拓扑数据分析。从 ISOMAP 到 UMAP,从持续同调到 Mapper 算法,现代数据科学越来越依赖于微分几何和代数拓扑的工具。然而,掌握这些工具的数学门槛,对于仅有初等微积分和线性代数背景的读者而言,可能显得高不可攀。
本书正是为这样的读者而写。
从初等微积分到流形上的微积分:一道认知鸿沟
翻开任何一本标准的多元微积分教材,你会看到偏导数、重积分、格林公式、斯托克斯公式。这些定理看似各自独立,证明依赖于精巧的坐标计算。然而,当数学家试图将这些定理推广到弯曲的空间——流形——上时,他们发现必须从根本上重新组织语言。
这种重新组织带来了巨大的概念飞跃:
- "向量"不再是一个自由漂浮的箭头,而是被固定在空间的每一个点上;
- "微分"不再是一个无穷小量,而是一个线性映射,它接受方向,输出变化率;
- "积分"不再是对无穷小块的数值求和,而是在微分形式这个更本质的自带变换规则的对象上进行;
- "边界"不再是几何直观,而是一个满足 $\partial^2 = 0$ 的代数算子。
对于已经习惯于初等微积分思维的读者,这些新概念的出现顺序和动机常常令人困惑。为什么会定义这些对象?它们之间是什么关系?原有的定理如何在新语言下得到统一?
让我们以"积分"为例,具体说明这一认知跃迁。
一个具体例子:变量替换公式的两种理解
在初等微积分中,二重积分被表述为
符号 $dx\,dy$ 被理解为"无穷小的面积元"。当我们做变量替换,比如从直角坐标 $(x,y)$ 换到极坐标 $(r,\theta)$,一个奇妙的公式出现:
这个 $r$ 从何而来?初等的解释是几何的:极坐标下的小网格不是一个矩形,而是一个扇环,其面积近似为 $r \, dr \, d\theta$。证明依赖于画图、近似、取极限。这个论证是正确的,但它将 $dx\,dy$ 与 $r\,dr\,d\theta$ 视为两个不同的几何对象,而 $r$ 是连接它们的桥梁。雅可比行列式是外加的修正因子。
微分形式提供了另一种看待同一事实的方式。
我们不再将 $dx\,dy$ 理解为一个"无穷小量",而是定义一个数学对象 $dx \wedge dy$,它是一个 2-形式——一个将两个切向量映射为实数的双线性交错函数。符号 $\wedge$(楔积)不是普通的乘法,它捕获了面积元的定向性质:$dx \wedge dy = - dy \wedge dx$。
现在,考虑从极坐标到直角坐标的映射
利用形式代数的规则,我们可以纯代数地计算:
注意,等号右边的 $r$ 不是事后附加的几何修正因子,而是从映射 $f$ 的雅可比行列式中自动涌现的系数。更精确地说,$f^*(dx \wedge dy)$ 的定义本身——将坐标函数代入形式并进行楔积展开——就包含了变量的变换规则。雅可比行列式不是外加的,它已经内置于形式的结构之中。
"更本质"意味着什么?
现在我们可以回答这个问题了。
一个"被积函数"在数学上并不天然是 $f(x,y)\,dx\,dy$。它应该被理解为一个 2-形式 $\omega$。选择什么坐标系、用什么变量表达 $\omega$——是 $dx \wedge dy$ 还是 $dr \wedge d\theta$——只是对同一个对象的不同坐标表示。
关键在于:
- 旧视角:$dx\,dy$ 是一个几何量(面积元),变量替换时需要引入雅可比行列式来修正刻度。
- 新视角:$dx \wedge dy$ 本身就是一个携带变换规则的形式。当你"拉回"它时,雅可比行列式内在地出现在计算结果中。你不需要额外地记住一个规则——你做代数计算,规则自己出现。
因此,"积分是对微分形式的积分"这句话,将积分的本质从"对无穷小块的数值求和"提升为"对一个不依赖于坐标系选择的几何-代数对象进行配对"。坐标是什么,决定了这个形式的局部表达式会多出一个因子,但这个对象本身,以及它在整个区域上的积分值,是不变的。
总结为一句话:微分形式之所以"更本质",是因为它把积分的对象从"需要外部规则来变换的数值表达式"变成了"自带变换规则的代数-几何对象"。 积分不再是对数值求和,而是对这些对象在整个区域上的代数配对。
这一视角的深远意义
当然,如果在 $\mathbb{R}^n$ 中做积分,两种视角都能得到正确答案。但是:
- 在弯曲空间(流形)上,没有全局的直角坐标。你无法定义一个统一的 $dx\,dy$ 去求和。但你可以定义微分形式。
- 当空间改变时,拉回运算 $f^*$ 天然告诉你积分如何变化。线积分、面积分、体积分,所有这些看似不同的"换元公式"在形式语言下是同一个运算。
- 斯托克斯定理 $\int_M d\omega = \int_{\partial M} \omega$ 之所以能用一个等式统一格林公式、散度定理、旋度定理,正是因为被积对象 $\omega$ 是形式,而不依赖于具体的维度或坐标系。
这正是整个理论大厦的蓝图:微分几何与物理中"客观性"的数学根基,不在于找到一个特殊的坐标系,而在于用不依赖于坐标选择的对象来表述定律。本书将逐步为你揭示这个蓝图的每一个细节。
本书的编写理念
本书的目标是架设一座从初等微积分到流形上的微积分的桥梁。我们假定读者已掌握:
- 一元函数的微积分(导数、黎曼积分、微积分基本定理),
- 基础的线性代数(矩阵运算、行列式、线性方程组的求解),
- 基本的集合论记号。
我们不假定读者熟悉抽象向量空间、拓扑空间或张量代数。这些工具将在需要时,由具体计算驱动,以自包含的方式引入。
本书的编写遵循以下原则:
1. 数学对象有明确的类型。
这或许是本书与初等教材最根本的区别。在一元微积分中,$f'(a)$ 是一个数字;在多元微积分中,导数是一个线性映射。在流形上,1-形式与向量场属于不同的空间,尽管它们在 $\mathbb{R}^n$ 中常被混为一谈。本书坚持为每一个新定义的对象标注其"类型"——它属于哪个空间?它接受什么输入?它产生什么输出?这种习惯看似繁琐,实则是避免混淆的最有效手段。
2. "最佳线性近似"是贯穿全书的主题。
微分学的核心思想是:在足够小的尺度上,光滑的非线性对象可以被线性对象很好地近似。在一元情形,这是切线;在多元情形,这是雅可比矩阵定义的线性映射;在流形上,这是切空间之间的线性映射。本书始终强调这一视角,因为一旦读者内化了"微分 = 线性近似"的等式,链式法则、反函数定理、隐函数定理都会变得自然。
3. 区分需要内积的对象与不需要内积的对象。
在 $\mathbb{R}^n$ 中,因为有标准内积 $\langle \boldsymbol{x}, \boldsymbol{y} \rangle = \sum x^i y^i$,向量与余向量、梯度与微分常被等同。但在一般流形上,切空间没有自然的内积——它必须被额外地赋予。因此,本书在逻辑上先引入不依赖内积的概念(微分形式、外微分),后引入依赖内积的概念(梯度、散度、旋度)。这一定序的用意是让读者清楚地看到:哪些结构是"天生"的,哪些是"后天"赋予的。
4. 从已知的定理出发,回溯定义的必要性。
抽象定义的动机往往来自对具体定理的重新审视。格林公式
的左边是一个二重积分,右边是一个曲线积分。它暗示了被积表达式之间存在着对应关系:$dx\,dy$ 与 $dx, dy$,以及微分算子 $d$ 的作用。本书的策略是:先仔细分析读者已经知道的经典定理,然后指出,为了将这些定理统一为一条简单的公式——$\int_M d\omega = \int_{\partial M} \omega$——我们必须发明微分形式和流形。定义不是从天而降的,它们是为解决问题而生的。
5. 对偶性是一条隐藏的线索。
在初等微积分中,我们习惯把"求面积"与"行列式"联系在一起。但为什么斯托克斯定理的现代形式如此简洁?一个重要的原因是,它利用了向量空间与对偶空间之间的配对。链 $\partial c$ 与形式 $\omega$ 正是通过 $\int_{\partial c} \omega$ 这种"对偶配对"结合在一起。本书将逐步揭示:外微分 $d$ 是边界算子 $\partial$ 的伴随算子,斯托克斯定理本质上是在陈述这一伴随关系。理解这一点,就理解了整个理论大厦的蓝图。
本书的呈现方式
为贯彻上述理念,本书采用了若干独特的呈现方式:
- 旁白框:在正文定义旁边,用方框标注关键的类型信息、常见误解及与初等微积分的对应关系。
- 概念翻译器:每章末尾设有一个表格,将初等微积分中的术语、符号与本书引入的现代术语并置对照。
- 双层练习:练习分为"计算验证型"与"概念辨析型"两类。后者要求读者判断数学陈述的正误并给出理由,直击常见混淆点。
- 螺旋上升结构:全书分为四个部分,每一部分在上一部分的基础上引入一层新的抽象。读者不必在初次接触时就完全理解所有概念——它们将在后续应用中反复出现,逐步深化。
面向人工智能时代的读者
在写作本书的过程中,我们始终意识到一部分潜在读者的目标:他们希望理解数据背后的几何结构,希望读懂现代机器学习论文中出现的流形假设、黎曼优化、信息几何等概念,希望将拓扑数据分析应用于实际问题。
因此,虽然本书的主体是严格的数学定义与证明,我们将在各部分的结尾添加"应用注记",简要说明该部分的数学工具在数据科学中的潜在应用。例如:
- 在介绍了切空间与局部坐标后,我们会讨论流形假设:高维数据点如何被建模为低维流形上的样本。
- 在介绍了黎曼度量后,我们会提及等距嵌入与 ISOMAP 算法背后的数学原理。
- 在建立了外微分与斯托克斯定理的统一框架后,我们会暗示这与拓扑数据分析中的持续同调有何联系。
这些注记不要求读者具备任何机器学习的预备知识,只需将其视为数学理论在当代科学中焕发新生的例证。
如何使用本书
对于自学者:建议按顺序阅读,不要跳过练习。如果某一定理或定义的动机一时不够清晰,请忍耐——答案往往在几页之后的计算或定理中浮现。
对于教师:本书可作为本科高年级"微分几何引论"或"流形上的微积分"课程的教材,也可作为研究生"机器学习数学基础"课程的补充读物。一学期的课程可涵盖第一至第三部分(约前八章),一学年的课程可完整讲授全部四部分。
对于已有机器学习背景的读者:你可以在阅读数学定义的同时,翻阅每部分末尾的应用注记。当抽象的切丛概念与具体的数据嵌入产生联系时,你可能会发现两者之间的自然对应,这正是数学统一性的魅力所在。
微积分的历史是一部不断"抽象化"与"统一化"的历史。牛顿与莱布尼茨发明了运算方法,柯西与魏尔斯特拉斯赋予了它严格的根基,嘉当与外尔将它的疆域从平坦的欧氏空间拓展到了弯曲的流形。本书希望传递的,不仅是这趟旅程的终点风景,更是沿途每一步的思考动机与逻辑脉络。
我们出发吧。