第2章 · 多元函数的导数

2.2 链式法则

在初等微积分中，链式法则是最重要的求导规则之一：若 $g: \mathbb{R} \to \mathbb{R}$ 和 $f: \mathbb{R} \to \mathbb{R}$ 都是可微函数，则复合函数 $(g \circ f)(x) = g(f(x))$ 也可微，且

(g \circ f)'(a) = g'(f(a)) \cdot f'(a).

等号右边是 $g'(f(a))$ 与 $f'(a)$ 这两个数的乘积。"乘以导数"这件事，在线性映射的语言中就是一个线性映射 $h \mapsto f'(a)h$。

在多元情形，$f: \mathbb{R}^n \to \mathbb{R}^m$ 和 $g: \mathbb{R}^m \to \mathbb{R}^p$ 的导数都是线性映射。链式法则的多元版本将陈述：复合函数的导数是各层函数导数的复合。用符号表示：

D(g \circ f)(\boldsymbol{a}) = Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a}).

右边是线性映射的复合（§1.2.3），左边是复合函数的导数（一个线性映射）。这正是我们在第一部分导言中预告的"把复合变为乘法"的精确含义——这里的"乘法"是线性映射的复合，也就是矩阵乘法。

2.2.1 定理的陈述与意义

定理 2.2.1（链式法则）

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，$g: \mathbb{R}^m \to \mathbb{R}^p$ 在 $f(\boldsymbol{a})$ 处可微。则复合映射 $g \circ f: \mathbb{R}^n \to \mathbb{R}^p$ 在 $\boldsymbol{a}$ 处可微，且

D(g \circ f)(\boldsymbol{a}) = Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a}).

在继续之前，先确认这个公式的"类型"是否正确：

$Df(\boldsymbol{a}) \in L(\mathbb{R}^n, \mathbb{R}^m)$，将 $\mathbb{R}^n$ 中的向量映射到 $\mathbb{R}^m$。
$Dg(f(\boldsymbol{a})) \in L(\mathbb{R}^m, \mathbb{R}^p)$，将 $\mathbb{R}^m$ 中的向量映射到 $\mathbb{R}^p$。
两者的复合 $Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a})$ 属于 $L(\mathbb{R}^n, \mathbb{R}^p)$，恰好是 $g \circ f: \mathbb{R}^n \to \mathbb{R}^p$ 的导数应有的类型。

用雅可比矩阵的语言，链式法则写为

(g \circ f)'(\boldsymbol{a}) = g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a}),

其中右边的"$\cdot$"是矩阵乘法。这正是读者在一元微积分中熟悉的"链式法则 = 导数相乘"的推广，只是"相乘"现在被理解为矩阵乘法——也就是线性映射的复合。

旁白：矩阵形式与映射形式

矩阵形式便于具体计算，映射形式便于理论推导。两者是同一事实的两种语言。本书在证明中优先使用映射形式，因为它的每一步都有清晰的几何意义（线性映射的复合），不受坐标系选择的影响。在需要具体数值时，再转写为矩阵形式。

2.2.2 证明

链式法则的证明是"导数 = 最佳线性近似"这一观点的直接应用。思路是：将 $f$ 和 $g$ 各自在相应点附近用它们的导数（线性映射）来近似，然后将两个近似"复合"起来，看总误差是否仍然足够小。

在证明中，我们将反复涉及"误差比 $\|\boldsymbol{h}\|$ 更快地趋于零"的表述。为简化语言，我们引入一个标准记号。

记号 $o(\|\boldsymbol{h}\|)$

设 $E(\boldsymbol{h})$ 是定义在原点附近、取值在某个欧氏空间中的函数。记号

E(\boldsymbol{h}) = o(\|\boldsymbol{h}\|) \quad (\boldsymbol{h} \to \boldsymbol{0})

表示 $\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|E(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0$。换言之，$E(\boldsymbol{h})$ 趋于零的速度比 $\|\boldsymbol{h}\|$ 更快。这个记号使我们能将可微性定义紧凑地写为

f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = Df(\boldsymbol{a})(\boldsymbol{h}) + o(\|\boldsymbol{h}\|),

即实际变化量 = 线性近似 + 高阶无穷小误差。在以下证明中，所有 $o(\|\boldsymbol{h}\|)$ 都以 $\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|E(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0$ 为其严格含义，读者可以随时用这个极限定义来还原每个步骤。

证明

设 $\boldsymbol{b} = f(\boldsymbol{a})$，$T = Df(\boldsymbol{a}) \in L(\mathbb{R}^n, \mathbb{R}^m)$，$S = Dg(\boldsymbol{b}) \in L(\mathbb{R}^m, \mathbb{R}^p)$。我们要证 $g \circ f$ 在 $\boldsymbol{a}$ 处可微，且导数为 $S \circ T$。

用开集语言确保局部定义。由可微性定义（定义2.1.1），$f$ 在 $\boldsymbol{a}$ 处的可微性意味着存在包含 $\boldsymbol{a}$ 的开集 $U \subset \mathbb{R}^n$，使得 $f$ 在 $U$ 上有定义且在该点可微。同理，$g$ 在 $\boldsymbol{b}$ 处的可微性意味着存在包含 $\boldsymbol{b}$ 的开集 $V \subset \mathbb{R}^m$，使得 $g$ 在 $V$ 上有定义且在 $\boldsymbol{b}$ 处可微。由于可微蕴含连续（定理2.1.3），$f$ 在 $\boldsymbol{a}$ 处连续，因此原像 $f^{-1}(V)$ 是包含 $\boldsymbol{a}$ 的开集（定理1.3.10）。于是，在开集 $U \cap f^{-1}(V)$ 上，复合映射 $g \circ f$ 有定义。当 $\boldsymbol{h}$ 充分小时，$\boldsymbol{a}+\boldsymbol{h}$ 始终落在这个开集内，以下所有极限运算合法。这一开集论证保证了我们可以在 $\boldsymbol{a}$ 的某邻域内自由地进行复合和极限操作，而无需担心定义域问题。

按可微性的定义，我们的目标等价于证明

g(f(\boldsymbol{a}+\boldsymbol{h})) - g(f(\boldsymbol{a})) = (S \circ T)(\boldsymbol{h}) + o(\|\boldsymbol{h}\|).

以下验证这个等式成立。

第一步：将变化量分解为"线性部分 + 误差"。

由 $f$ 在 $\boldsymbol{a}$ 处的可微性，对充分小的 $\boldsymbol{h}$（使得 $\boldsymbol{a}+\boldsymbol{h} \in U \cap f^{-1}(V)$），

f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = T(\boldsymbol{h}) + \phi(\boldsymbol{h}),

其中 $\phi(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$，即当 $\boldsymbol{h} \to \boldsymbol{0}$ 时 $\frac{\|\phi(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} \to 0$。因此

f(\boldsymbol{a}+\boldsymbol{h}) = \boldsymbol{b} + T(\boldsymbol{h}) + \phi(\boldsymbol{h}). \tag{1}

这里 $\phi$ 定义在某个包含 $\boldsymbol{0}$ 的开集上（$\boldsymbol{h}$ 的取值范围），这是由可微性定义中的极限条件保证的——极限 $\boldsymbol{h} \to \boldsymbol{0}$ 蕴含了在原点附近的一个开邻域内，误差项都有定义。

类似地，由 $g$ 在 $\boldsymbol{b}$ 处的可微性，对充分小的 $\boldsymbol{k} \in \mathbb{R}^m$（即 $\boldsymbol{b}+\boldsymbol{k} \in V$），

g(\boldsymbol{b}+\boldsymbol{k}) - g(\boldsymbol{b}) = S(\boldsymbol{k}) + \psi(\boldsymbol{k}),

其中 $\psi(\boldsymbol{k}) = o(\|\boldsymbol{k}\|)$，即当 $\boldsymbol{k} \to \boldsymbol{0}$ 时 $\frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|} \to 0$。因此

g(\boldsymbol{b}+\boldsymbol{k}) = g(\boldsymbol{b}) + S(\boldsymbol{k}) + \psi(\boldsymbol{k}). \tag{2}

同样，$\psi$ 定义在 $\mathbb{R}^m$ 中包含 $\boldsymbol{0}$ 的某个开集上。

步骤解读

这一步纯粹是在"命名"误差。$\phi(\boldsymbol{h})$ 是 $f$ 在 $\boldsymbol{a}$ 处的线性近似误差，$\psi(\boldsymbol{k})$ 是 $g$ 在 $\boldsymbol{b}$ 处的线性近似误差。这些误差定义的开集源自可微性的局部性质：每个可微点存在一个开邻域，在该邻域上函数有定义且极限条件成立。开集框架在这里确保了误差项在原点附近是良定义的。

第二步：代入复合函数。

在 (2) 中取 $\boldsymbol{k} = T(\boldsymbol{h}) + \phi(\boldsymbol{h})$。注意，(1) 告诉我们这恰好是 $f(\boldsymbol{a}+\boldsymbol{h}) - \boldsymbol{b}$。当 $\boldsymbol{h}$ 充分小时，由连续性可知 $\boldsymbol{k}$ 也充分小，从而 $\boldsymbol{b}+\boldsymbol{k} \in V$，因此 (2) 式适用。于是

g(f(\boldsymbol{a}+\boldsymbol{h})) = g(\boldsymbol{b} + \boldsymbol{k}) = g(\boldsymbol{b}) + S(\boldsymbol{k}) + \psi(\boldsymbol{k}).

将 $\boldsymbol{k} = T(\boldsymbol{h}) + \phi(\boldsymbol{h})$ 代入：

g(f(\boldsymbol{a}+\boldsymbol{h})) = g(f(\boldsymbol{a})) + S(T(\boldsymbol{h}) + \phi(\boldsymbol{h})) + \psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h})).

利用 $S$ 的线性性 $S(T(\boldsymbol{h}) + \phi(\boldsymbol{h})) = S(T(\boldsymbol{h})) + S(\phi(\boldsymbol{h}))$，得

g(f(\boldsymbol{a}+\boldsymbol{h})) - g(f(\boldsymbol{a})) = (S \circ T)(\boldsymbol{h}) + S(\phi(\boldsymbol{h})) + \psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h})). \tag{3}

步骤解读

这是证明中最关键的一步代数操作。我们把复合函数的变化量拆成了三个部分：

$(S \circ T)(\boldsymbol{h})$：由两层导数复合而成的"候选导数"部分；
$S(\phi(\boldsymbol{h}))$：$f$ 的误差被 $S$ 作用后的结果；
$\psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h}))$：$g$ 自身的误差，其中自变量偏移量是 $\boldsymbol{k} = T(\boldsymbol{h}) + \phi(\boldsymbol{h})$。

要证明链式法则，只需证明后两项之和是 $o(\|\boldsymbol{h}\|)$——即它们都比 $\|\boldsymbol{h}\|$ 更快地趋于零。

第三步：估计误差项。

总误差为 $\rho(\boldsymbol{h}) = S(\phi(\boldsymbol{h})) + \psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h}))$。我们需要证明

\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|\rho(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0.

处理 $S(\phi(\boldsymbol{h}))$：由算子范数的不等式 $\|S(\boldsymbol{x})\| \le \|S\| \|\boldsymbol{x}\|$（§1.2.4），

\frac{\|S(\phi(\boldsymbol{h}))\|}{\|\boldsymbol{h}\|} \le \|S\| \cdot \frac{\|\phi(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}.

由于 $\phi(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$，即当 $\boldsymbol{h} \to \boldsymbol{0}$ 时 $\frac{\|\phi(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} \to 0$，而 $\|S\|$ 是常数，因此这一项趋于 $0$。换言之，$S(\phi(\boldsymbol{h})) = o(\|\boldsymbol{h}\|)$。这一估计成立的前提是 $\phi(\boldsymbol{h})$ 在包含 $\boldsymbol{0}$ 的某开集上有定义——这由第一步中 $\phi$ 的定义所保证。

步骤解读

算子范数允许我们将线性映射 $S$ 从分子中"提出"来，把对 $S(\phi(\boldsymbol{h}))$ 的估计转化为对 $\phi(\boldsymbol{h})$ 的估计——而后者已由 $f$ 的可微性控制。这里处处使用了开集框架：可微性定义中的极限 $\boldsymbol{h} \to \boldsymbol{0}$ 是在原点的一个开邻域内进行的，这确保了极限过程的合法性。

处理 $\psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h}))$：令 $\boldsymbol{k} = T(\boldsymbol{h}) + \phi(\boldsymbol{h})$。此时我们面临一个需要小心处理的技术细节。由 $g$ 的可微性，我们知道 $\psi(\boldsymbol{k}) = o(\|\boldsymbol{k}\|)$，即当 $\boldsymbol{k} \to \boldsymbol{0}$ 时 $\frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|} \to 0$。而由上面的不等式 $\|\boldsymbol{k}\| \le \|T\| \|\boldsymbol{h}\| + \|\phi(\boldsymbol{h})\|$，当 $\boldsymbol{h} \to \boldsymbol{0}$ 时，右边两项都趋于 $0$，因此 $\boldsymbol{k} \to \boldsymbol{0}$ 且 $\|\boldsymbol{k}\|$ 被 $\|\boldsymbol{h}\|$ 的常数倍控制。至此，直觉告诉我们，既然 $\psi(\boldsymbol{k})$ 的大小是 $o(\|\boldsymbol{k}\|)$，而 $\|\boldsymbol{k}\|$ 又是 $O(\|\boldsymbol{h}\|)$，那么 $\psi(\boldsymbol{k})$ 理应是 $o(\|\boldsymbol{h}\|)$。

然而，如何将这两个条件严格地"拼接"起来？一个自然的想法是写

\frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{h}\|} = \frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|} \cdot \frac{\|\boldsymbol{k}\|}{\|\boldsymbol{h}\|},

并令 $\boldsymbol{h} \to \boldsymbol{0}$。但这在逻辑上有一个漏洞：当 $\boldsymbol{h} \to \boldsymbol{0}$ 时，$\boldsymbol{k} = T(\boldsymbol{h}) + \phi(\boldsymbol{h})$ 可能在某些 $\boldsymbol{h} \neq \boldsymbol{0}$ 处恰好为零（例如如果 $T(\boldsymbol{h}) = -\phi(\boldsymbol{h})$），此时分式 $\frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|}$ 中的分母为零，表达式无定义。虽然我们可以分情况讨论（当 $\boldsymbol{k} = \boldsymbol{0}$ 时直接从连续性得 $\psi(\boldsymbol{k}) = \boldsymbol{0}$），但这会使证明变得繁琐。

一个更干净的处理方式是引入辅助函数 $\eta$，将极限条件 $\lim_{\boldsymbol{k} \to \boldsymbol{0}} \frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|} = 0$ 改写为"乘积形式"的等式，从而一劳永逸地避免分母为零的麻烦。这个改写本身也依赖于 $\psi$ 在某个包含 $\boldsymbol{0}$ 的开集上有定义，这是由 $g$ 在 $\boldsymbol{b}$ 处可微的局部性质保证的。

具体来说，定义函数 $\eta: \mathbb{R}^m \to [0,\infty)$ 如下：

\eta(\boldsymbol{k}) = \begin{cases} \dfrac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|}, & \boldsymbol{k} \neq \boldsymbol{0}, \\[1em] 0, & \boldsymbol{k} = \boldsymbol{0}. \end{cases}

极限条件 $\lim_{\boldsymbol{k} \to \boldsymbol{0}} \frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{k}\|} = 0$ 恰好等价于 $\lim_{\boldsymbol{k} \to \boldsymbol{0}} \eta(\boldsymbol{k}) = 0$。并且由定义直接得到等式

\|\psi(\boldsymbol{k})\| = \eta(\boldsymbol{k}) \|\boldsymbol{k}\|,

该等式对所有 $\boldsymbol{k} \in \mathbb{R}^m$ 成立（包括 $\boldsymbol{k} = \boldsymbol{0}$）。这就完全避开了分母为零的问题。

现在来估计 $\psi(\boldsymbol{k})$。由于 $T$ 是线性映射，$\|T(\boldsymbol{h})\| \le \|T\| \|\boldsymbol{h}\|$，故当 $\boldsymbol{h} \to \boldsymbol{0}$ 时 $T(\boldsymbol{h}) \to \boldsymbol{0}$；同时 $\phi(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$ 蕴含 $\phi(\boldsymbol{h}) \to \boldsymbol{0}$。因此 $\boldsymbol{k} = T(\boldsymbol{h}) + \phi(\boldsymbol{h}) \to \boldsymbol{0}$，进而 $\eta(\boldsymbol{k}) \to 0$。

对于 $\|\boldsymbol{k}\|$ 的大小，有

\|\boldsymbol{k}\| = \|T(\boldsymbol{h}) + \phi(\boldsymbol{h})\| \le \|T\| \|\boldsymbol{h}\| + \|\phi(\boldsymbol{h})\|.

由于 $\phi(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$，当 $\boldsymbol{h} \to \boldsymbol{0}$ 时 $\frac{\|\phi(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} \to 0$，故存在常数 $C > 0$ 使得在原点附近 $\|\phi(\boldsymbol{h})\| \le C \|\boldsymbol{h}\|$。这个"原点附近"正是由可微性给出的开集所保证的。于是

\|\boldsymbol{k}\| \le (\|T\| + C)\|\boldsymbol{h}\|.

现在可以完成估计：

\frac{\|\psi(\boldsymbol{k})\|}{\|\boldsymbol{h}\|} = \eta(\boldsymbol{k}) \frac{\|\boldsymbol{k}\|}{\|\boldsymbol{h}\|} \le \eta(\boldsymbol{k}) (\|T\| + C).

当 $\boldsymbol{h} \to \boldsymbol{0}$ 时，$\eta(\boldsymbol{k}) \to 0$，而 $\|T\| + C$ 是常数，因此整个表达式趋于 $0$。这就证明了 $\psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h})) = o(\|\boldsymbol{h}\|)$。

步骤解读

这个估计是整个证明中技术上最精细的一步。核心挑战是将两个极限条件——$\psi(\boldsymbol{k}) = o(\|\boldsymbol{k}\|)$ 和 $\boldsymbol{k} = O(\|\boldsymbol{h}\|)$——安全地组合起来。引入辅助函数 $\eta$ 的技巧将 $\psi(\boldsymbol{k}) = o(\|\boldsymbol{k}\|)$ 这一极限信息转化为一个处处成立的等式 $\|\psi(\boldsymbol{k})\| = \eta(\boldsymbol{k}) \|\boldsymbol{k}\|$，其中 $\eta(\boldsymbol{k}) \to 0$（当 $\boldsymbol{k} \to \boldsymbol{0}$）。这样一来，整个估计就变成了"一个趋于零的量 $\eta(\boldsymbol{k})$ 乘以一个有界的量 $\frac{\|\boldsymbol{k}\|}{\|\boldsymbol{h}\|}$"，极限为零的结论是显然的。整个估计过程根植于开集框架：所有极限运算都在可微性提供的开邻域内进行，保证了误差项和辅助函数在原点附近有定义且连续。

第四步：综合结论。

由第三步，$\rho(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$。结合 (3)，得

g(f(\boldsymbol{a}+\boldsymbol{h})) - g(f(\boldsymbol{a})) = (S \circ T)(\boldsymbol{h}) + o(\|\boldsymbol{h}\|).

这正是 $g \circ f$ 在 $\boldsymbol{a}$ 处可微且导数为 $S \circ T$ 的定义。 ∎

旁白：证明的核心结构

链式法则的证明精确地体现了"局部线性化"的思想。每一步都在做同一件事：将非线性映射替换为它的线性近似，并论证总误差仍然足够小。在 §1.2.2 中我们建立了"线性映射的复合对应于矩阵乘法"这一代数事实；本节则将这个代数事实与分析学中的极限过程相结合，从而完成了从代数结构到分析定理的桥梁。这种"代数 + 估计"的证明模式，在后续的反函数定理和隐函数定理中还会反复出现。

证明中多处使用了开集语言：开头确保复合映射的局部定义，第一步和第三步强调误差项和极限过程的可定义性依赖于可微性提供的开邻域。这种"先局部，后极限"的思考方式是现代分析学的标志，也是流形上微积分的预演——在流形上，函数的定义域通常不是一个整体线性空间，而是通过坐标卡将局部区域映射到 $\mathbb{R}^n$ 的开集，极限运算只能在这些局部开集内合法进行。

第三步中引入辅助函数 $\eta$ 的方法也值得注意：将极限条件改写成带有一个趋于零的因子的乘积等式，从而避免分情况讨论，是分析学中的标准技巧。

2.2.3 矩阵形式与偏导数形式的链式法则

将定理 2.2.1 转化为雅可比矩阵的语言，立刻得到矩阵形式的链式法则。这是实际计算中最常用的版本。

推论 2.2.2（矩阵形式的链式法则）

在定理 2.2.1 的条件下，

(g \circ f)'(\boldsymbol{a}) = g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a}),

其中右边的"$\cdot$"是 $p \times m$ 矩阵与 $m \times n$ 矩阵的乘积。

证明

由定理 2.2.1，$D(g \circ f)(\boldsymbol{a}) = Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a})$。两边取标准基下的矩阵。由 §1.2.3 定理 1.2.5，线性映射的复合对应于矩阵的乘积。因此左边的矩阵是 $(g \circ f)'(\boldsymbol{a})$，右边是 $g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a})$。 ∎

旁白

这个推论的证明只有一行——而这恰恰体现了我们在第 1 章预先建立矩阵乘法与映射复合之间对应关系的价值。

当我们把雅可比矩阵的元素用偏导数写出来，就得到了分量形式的链式法则，这也是很多多元微积分教材中最先出现的版本。

推论 2.2.3（偏导数形式的链式法则）

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 和 $g: \mathbb{R}^m \to \mathbb{R}^p$ 满足定理 2.2.1 的条件。令 $h = g \circ f$。则对任意 $i = 1, \dots, p$ 和 $j = 1, \dots, n$，

D_j h^i(\boldsymbol{a}) = \sum_{k=1}^m D_k g^i(f(\boldsymbol{a})) \cdot D_j f^k(\boldsymbol{a}).

证明

首先明确各符号的含义。复合函数 $h = g \circ f$ 的分量函数记为 $h^1, \dots, h^p$，即 $h(\boldsymbol{x}) = (h^1(\boldsymbol{x}), \dots, h^p(\boldsymbol{x}))$，其中 $h^i = g^i \circ f$。根据雅可比矩阵的定义（定义 2.1.4），矩阵 $h'(\boldsymbol{a}) = (g \circ f)'(\boldsymbol{a})$ 的第 $i$ 行第 $j$ 列元素正是偏导数 $D_j h^i(\boldsymbol{a})$——即 $h$ 的第 $i$ 个分量函数对第 $j$ 个自变量的偏导数在点 $\boldsymbol{a}$ 处的值。

由推论 2.2.2（矩阵形式的链式法则），

(g \circ f)'(\boldsymbol{a}) = g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a}).

右边是矩阵乘积：$g'(f(\boldsymbol{a}))$ 是 $p \times m$ 矩阵，其第 $i$ 行第 $k$ 列元素为 $D_k g^i(f(\boldsymbol{a}))$——即 $g$ 的第 $i$ 个分量函数对第 $k$ 个自变量的偏导数在点 $f(\boldsymbol{a})$ 处的值；$f'(\boldsymbol{a})$ 是 $m \times n$ 矩阵，其第 $k$ 行第 $j$ 列元素为 $D_j f^k(\boldsymbol{a})$——即 $f$ 的第 $k$ 个分量函数对第 $j$ 个自变量的偏导数在点 $\boldsymbol{a}$ 处的值。矩阵乘法定义给出乘积的第 $i$ 行第 $j$ 列元素为

\sum_{k=1}^m D_k g^i(f(\boldsymbol{a})) \cdot D_j f^k(\boldsymbol{a}).

等式两边矩阵的对应元素相等，即得所求。 ∎

例 2.2.4

设 $f: \mathbb{R}^2 \to \mathbb{R}^3$，$f(x,y) = (x^2, xy, y^3)$，$g: \mathbb{R}^3 \to \mathbb{R}^2$，$g(u,v,w) = (u+v, vw)$。求 $D(g \circ f)(1, 2)$。

首先计算各雅可比矩阵：

f'(x,y) = \begin{pmatrix} 2x & 0 \\ y & x \\ 0 & 3y^2 \end{pmatrix}, \qquad g'(u,v,w) = \begin{pmatrix} 1 & 1 & 0 \\ 0 & w & v \end{pmatrix}.

在点 $(x,y) = (1,2)$ 处，$f(1,2) = (1, 2, 8)$，

f'(1,2) = \begin{pmatrix} 2 & 0 \\ 2 & 1 \\ 0 & 12 \end{pmatrix}, \qquad g'(1,2,8) = \begin{pmatrix} 1 & 1 & 0 \\ 0 & 8 & 2 \end{pmatrix}.

因此

(g \circ f)'(1,2) = g'(1,2,8) \cdot f'(1,2) = \begin{pmatrix} 1 & 1 & 0 \\ 0 & 8 & 2 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 2 & 1 \\ 0 & 12 \end{pmatrix} = \begin{pmatrix} 4 & 1 \\ 16 & 32 \end{pmatrix}.

例 2.2.5（复合多个函数）

链式法则可以自然地推广到多个函数的复合。设 $f: \mathbb{R}^n \to \mathbb{R}^m$，$g: \mathbb{R}^m \to \mathbb{R}^p$，$h: \mathbb{R}^p \to \mathbb{R}^q$ 分别在相应点可微。则

D(h \circ g \circ f)(\boldsymbol{a}) = Dh(g(f(\boldsymbol{a}))) \circ Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a}).

这正是我们在第一部分导言中预告的模式：函数复合的导数，是各个函数导数的复合，顺序相反。

2.2.4 乘积法则与商法则

链式法则的一个直接推论是乘积法则和商法则。初等微积分中的乘积法则 $(fg)' = f'g + fg'$ 是读者最熟悉的求导规则之一。在多元情形，我们同样希望得到两个实值函数乘积的导数公式。从映射的视角来看，乘积法则和商法则都是链式法则的特例——只需将乘法或除法视为一个映射，求出它的导数，然后对复合映射应用链式法则。

推论 2.2.6（乘积法则）

设 $f, g: \mathbb{R}^n \to \mathbb{R}$ 在 $\boldsymbol{a}$ 处可微。则积 $f \cdot g$（定义为 $(f \cdot g)(\boldsymbol{x}) = f(\boldsymbol{x}) g(\boldsymbol{x})$）在 $\boldsymbol{a}$ 处可微，且

D(f \cdot g)(\boldsymbol{a}) = g(\boldsymbol{a}) Df(\boldsymbol{a}) + f(\boldsymbol{a}) Dg(\boldsymbol{a}).

证明

定义乘法映射 $p: \mathbb{R}^2 \to \mathbb{R}$ 为 $p(u,v) = uv$。首先计算 $p$ 的导数。对任意 $(u,v) \in \mathbb{R}^2$，偏导数为

D_1 p(u,v) = v, \qquad D_2 p(u,v) = u.

由 §2.1 例 2.1.9 同样的方法，可以验证 $p$ 在任意点 $(u,v)$ 处可微，且其导数为线性映射

$$Dp(u,v)(h,k) = D_1 p(u,v) h + D_2 p(u,v) k = v h + u k.$$

（验证：$p(u+h, v+k) - p(u,v) - (v h + u k) = hk$，且 $\frac{|hk|}{\|(h,k)\|} \to 0$ 当 $(h,k) \to (0,0)$。）

现在，将乘积 $f \cdot g$ 表示为复合映射：

f \cdot g = p \circ F, \quad \text{其中 } F: \mathbb{R}^n \to \mathbb{R}^2, \;\; F(\boldsymbol{x}) = (f(\boldsymbol{x}), g(\boldsymbol{x})).

由于 $f$ 和 $g$ 都在 $\boldsymbol{a}$ 处可微，存在包含 $\boldsymbol{a}$ 的开集，在此开集上 $F$ 有定义且可微（由定理 2.1.5，分量的可微性等价于映射的可微性），其导数为

DF(\boldsymbol{a})(\boldsymbol{h}) = (Df(\boldsymbol{a})(\boldsymbol{h}), \, Dg(\boldsymbol{a})(\boldsymbol{h})) \in \mathbb{R}^2.

现对 $f \cdot g = p \circ F$ 应用链式法则（定理 2.2.1）：

D(f \cdot g)(\boldsymbol{a}) = Dp(F(\boldsymbol{a})) \circ DF(\boldsymbol{a}) = Dp(f(\boldsymbol{a}), g(\boldsymbol{a})) \circ DF(\boldsymbol{a}).

对任意 $\boldsymbol{h} \in \mathbb{R}^n$，计算这个复合：

\begin{aligned} D(f \cdot g)(\boldsymbol{a})(\boldsymbol{h}) &= Dp(f(\boldsymbol{a}), g(\boldsymbol{a}))\big(DF(\boldsymbol{a})(\boldsymbol{h})\big) \\ &= Dp(f(\boldsymbol{a}), g(\boldsymbol{a}))\big(Df(\boldsymbol{a})(\boldsymbol{h}), \, Dg(\boldsymbol{a})(\boldsymbol{h})\big). \end{aligned}

代入 $Dp$ 的公式（注意这里 $Df(\boldsymbol{a})(\boldsymbol{h})$ 和 $Dg(\boldsymbol{a})(\boldsymbol{h})$ 都是实数）：

= g(\boldsymbol{a}) \cdot Df(\boldsymbol{a})(\boldsymbol{h}) + f(\boldsymbol{a}) \cdot Dg(\boldsymbol{a})(\boldsymbol{h}).

由于这对任意 $\boldsymbol{h}$ 成立，我们得到线性映射的等式

D(f \cdot g)(\boldsymbol{a}) = g(\boldsymbol{a}) Df(\boldsymbol{a}) + f(\boldsymbol{a}) Dg(\boldsymbol{a}).

这就完成了乘积法则的证明。 ∎

旁白：这个证明的方法论意义

将乘法视为一个映射 $p: \mathbb{R}^2 \to \mathbb{R}$，先求出 $p$ 的导数，再用链式法则得到乘积的导数。这种"将代数运算提升为可微映射，然后应用链式法则"的策略，在 §2.2.5 讨论双线性映射的一般理论时将得到更系统的阐述，并在第 4 章楔积的处理中再次出现。

推论 2.2.7（商法则）

设 $f, g: \mathbb{R}^n \to \mathbb{R}$ 在 $\boldsymbol{a}$ 处可微，且 $g(\boldsymbol{a}) \neq 0$。则商 $f/g$（定义为 $(f/g)(\boldsymbol{x}) = f(\boldsymbol{x}) / g(\boldsymbol{x})$）在 $\boldsymbol{a}$ 处可微，且

D(f/g)(\boldsymbol{a}) = \frac{g(\boldsymbol{a}) Df(\boldsymbol{a}) - f(\boldsymbol{a}) Dg(\boldsymbol{a})}{[g(\boldsymbol{a})]^2}.

证明

定义除法映射 $q: \mathbb{R} \times (\mathbb{R} \setminus \{0\}) \to \mathbb{R}$ 为 $q(u,v) = u/v$。与乘法映射类似，先计算 $q$ 的偏导数：

D_1 q(u,v) = \frac{1}{v}, \qquad D_2 q(u,v) = -\frac{u}{v^2},

并验证 $q$ 在 $v \neq 0$ 的各点处可微，导数为 $Dq(u,v)(h,k) = \frac{1}{v} h - \frac{u}{v^2} k$。

令 $F(\boldsymbol{x}) = (f(\boldsymbol{x}), g(\boldsymbol{x}))$。由于 $g(\boldsymbol{a}) \neq 0$ 且 $g$ 连续，$\{v \in \mathbb{R} \mid v \neq 0\}$ 是开集，其原像 $g^{-1}(\mathbb{R} \setminus \{0\})$ 是包含 $\boldsymbol{a}$ 的开集。因此存在包含 $\boldsymbol{a}$ 的开集，在其上 $g(\boldsymbol{x}) \neq 0$，从而 $F$ 在这个开集上的取值落在 $q$ 的定义域内。对 $f/g = q \circ F$ 应用链式法则，得

D(f/g)(\boldsymbol{a}) = Dq(f(\boldsymbol{a}), g(\boldsymbol{a})) \circ DF(\boldsymbol{a}).

对任意 $\boldsymbol{h} \in \mathbb{R}^n$，

D(f/g)(\boldsymbol{a})(\boldsymbol{h}) = \frac{1}{g(\boldsymbol{a})} Df(\boldsymbol{a})(\boldsymbol{h}) - \frac{f(\boldsymbol{a})}{[g(\boldsymbol{a})]^2} Dg(\boldsymbol{a})(\boldsymbol{h}).

整理即得所求证。 ∎

旁白

与乘积法则的证明结构完全一致——唯一的区别在于除法映射仅在 $v \neq 0$ 处有定义。条件 $g(\boldsymbol{a}) \neq 0$ 加上 $g$ 的连续性（可微蕴含连续）保证了在 $\boldsymbol{a}$ 的某个开邻域内 $g(\boldsymbol{x}) \neq 0$，这正是通过开集语言得到的：$\mathbb{R} \setminus \{0\}$ 是开集，其原像 $g^{-1}(\mathbb{R} \setminus \{0\})$ 是开集且包含 $\boldsymbol{a}$。从而复合映射在 $\boldsymbol{a}$ 附近有定义且满足链式法则的条件。

2.2.5 双线性映射的导数——乘积法则的推广

在推论 2.2.6 的证明中，我们看到了一个重要的方法：将乘法视为一个映射 $p: \mathbb{R}^2 \to \mathbb{R}$，求出它的导数，然后用链式法则得到乘积的导数。这个方法的适用范围远不止于此。许多常见的运算——向量的内积、$\mathbb{R}^3$ 中的叉积、矩阵乘法——都具有双线性性：关于两个变量分别线性。这类运算的导数有一个统一的公式，乘积法则只是其特例。

定理 2.2.8（双线性映射的导数）

设 $B: \mathbb{R}^m \times \mathbb{R}^p \to \mathbb{R}^q$ 是双线性映射（即 $B$ 关于两个变量分别线性）。则 $B$ 在任意点 $(\boldsymbol{u}, \boldsymbol{v}) \in \mathbb{R}^m \times \mathbb{R}^p$ 处可微，且其导数为线性映射

DB(\boldsymbol{u}, \boldsymbol{v})(\boldsymbol{h}, \boldsymbol{k}) = B(\boldsymbol{h}, \boldsymbol{v}) + B(\boldsymbol{u}, \boldsymbol{k}).

证明

由双线性性，

B(\boldsymbol{u}+\boldsymbol{h}, \boldsymbol{v}+\boldsymbol{k}) - B(\boldsymbol{u}, \boldsymbol{v}) = B(\boldsymbol{h}, \boldsymbol{v}) + B(\boldsymbol{u}, \boldsymbol{k}) + B(\boldsymbol{h}, \boldsymbol{k}).

余项 $B(\boldsymbol{h}, \boldsymbol{k})$ 是双线性的。而有限维空间中任何双线性映射都是连续的，且存在常数 $C > 0$ 使得 $\|B(\boldsymbol{h}, \boldsymbol{k})\| \le C \|\boldsymbol{h}\| \|\boldsymbol{k}\|$。

常数 $C$ 的存在性

$B$ 在 $\mathbb{R}^m \times \mathbb{R}^p$ 的单位球面 $S = \{(\boldsymbol{h}, \boldsymbol{k}) \mid \|(\boldsymbol{h}, \boldsymbol{k})\| = 1\}$ 上连续。由于 $S$ 是紧集（§1.3.5），$\|B\|$ 在 $S$ 上取到最大值 $C$（定理1.3.16）。对任意非零 $(\boldsymbol{h}, \boldsymbol{k})$，缩放为单位向量即得 $\|B(\boldsymbol{h}, \boldsymbol{k})\| \le C \|\boldsymbol{h}\| \|\boldsymbol{k}\|$。这里用了紧集上连续函数的极值定理，而紧性在 §1.3 中已用开集语言（有界闭集）刻画。

利用不等式 $\|\boldsymbol{h}\| \|\boldsymbol{k}\| \le \frac{1}{2}(\|\boldsymbol{h}\|^2 + \|\boldsymbol{k}\|^2) \le \frac{1}{2}\|(\boldsymbol{h}, \boldsymbol{k})\|^2$，立即得出

\frac{\|B(\boldsymbol{h}, \boldsymbol{k})\|}{\|(\boldsymbol{h}, \boldsymbol{k})\|} \to 0 \quad (\text{当 } (\boldsymbol{h}, \boldsymbol{k}) \to (\boldsymbol{0}, \boldsymbol{0})).

因此候选导数 $T(\boldsymbol{h}, \boldsymbol{k}) = B(\boldsymbol{h}, \boldsymbol{v}) + B(\boldsymbol{u}, \boldsymbol{k})$ 满足可微性定义 2.1.1。 ∎

结合链式法则，我们得到双线性映射的一般求导法则。

推论 2.2.9（双线性映射的链式法则）

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 和 $g: \mathbb{R}^n \to \mathbb{R}^p$ 在 $\boldsymbol{a}$ 处可微，$B: \mathbb{R}^m \times \mathbb{R}^p \to \mathbb{R}^q$ 是双线性映射。定义 $h(\boldsymbol{x}) = B(f(\boldsymbol{x}), g(\boldsymbol{x}))$。则 $h$ 在 $\boldsymbol{a}$ 处可微，且对任意 $\boldsymbol{v} \in \mathbb{R}^n$，

Dh(\boldsymbol{a})(\boldsymbol{v}) = B(Df(\boldsymbol{a})(\boldsymbol{v}), g(\boldsymbol{a})) + B(f(\boldsymbol{a}), Dg(\boldsymbol{a})(\boldsymbol{v})).

证明

令 $F(\boldsymbol{x}) = (f(\boldsymbol{x}), g(\boldsymbol{x}))$，则 $h = B \circ F$。由链式法则（定理 2.2.1）和定理 2.2.8 即得。 ∎

旁白：形式与一维乘积法则的相似性

这个公式在形式上与一维乘积法则 $(fg)' = f'g + fg'$ 完全一致——只是"乘法"被替换为双线性映射 $B$，"乘以"被替换为 $B$ 的作用。这正是"将代数运算提升为可微映射"这一思想的完整体现。

经典特例

下面列出这一般框架的几个重要特例：

实数的乘法（$m = p = q = 1$，$B(u,v) = uv$）：这就是推论 2.2.6（乘积法则）： $D(f \cdot g)(\boldsymbol{a}) = g(\boldsymbol{a}) Df(\boldsymbol{a}) + f(\boldsymbol{a}) Dg(\boldsymbol{a}).$
向量的内积（$m = p = n$，$q = 1$，$B(\boldsymbol{u},\boldsymbol{v}) = \langle \boldsymbol{u}, \boldsymbol{v}\rangle$）： $D\langle f, g\rangle(\boldsymbol{a})(\boldsymbol{v}) = \langle Df(\boldsymbol{a})(\boldsymbol{v}), g(\boldsymbol{a})\rangle + \langle f(\boldsymbol{a}), Dg(\boldsymbol{a})(\boldsymbol{v})\rangle.$
$\mathbb{R}^3$ 中的叉积（$m = p = q = 3$，$B(\boldsymbol{u},\boldsymbol{v}) = \boldsymbol{u} \times \boldsymbol{v}$）： $D(f \times g)(\boldsymbol{a})(\boldsymbol{v}) = (Df(\boldsymbol{a})(\boldsymbol{v})) \times g(\boldsymbol{a}) + f(\boldsymbol{a}) \times (Dg(\boldsymbol{a})(\boldsymbol{v})).$

旁白：乘积法则在一般向量值函数中不存在

值得注意，如果 $f, g: \mathbb{R}^n \to \mathbb{R}^m$（$m > 1$），则"乘积" $f \cdot g$ 没有意义——两个 $\mathbb{R}^m$ 中的向量没有标准的乘法运算。然而，内积和叉积（后者仅在 $\mathbb{R}^3$ 中）提供了向量值函数之间的"乘法"，而它们的求导法则正是推论 2.2.9 的特例。

2.2.6 一维链式法则的再推导

作为一致性检验，我们将定理 2.2.1 应用到 $n = m = p = 1$ 的情形。此时 $f, g: \mathbb{R} \to \mathbb{R}$，导数 $f'(a)$ 和 $g'(f(a))$ 都是 $1 \times 1$ 矩阵（即数）。线性映射的复合退化为数的乘法：

D(g \circ f)(a) = Dg(f(a)) \circ Df(a),

对应的矩阵形式是

(g \circ f)'(a) = g'(f(a)) \cdot f'(a),

即一元微积分中的链式法则。§2.1 中我们说过，一维情形中"乘以导数"这一线性映射与导数本身之间是一一对应的。链式法则的多元版本与一维版本在形式上完全一致，这正是"导数应被视为线性映射"这一观点统一性的体现。

练习 2.2

【计算验证型】

设 $f: \mathbb{R}^2 \to \mathbb{R}^2$，$f(x,y) = (e^{x+y}, \sin(x-y))$，$g: \mathbb{R}^2 \to \mathbb{R}^3$，$g(u,v) = (u^2, uv, v^2)$。计算 $D(g \circ f)(0,0)$。
设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，$\boldsymbol{c} \in \mathbb{R}^m$ 是常向量。定义 $h(\boldsymbol{x}) = \langle f(\boldsymbol{x}), \boldsymbol{c} \rangle$（内积）。用推论 2.2.9 求 $Dh(\boldsymbol{a})$。
设 $f, g: \mathbb{R}^n \to \mathbb{R}$ 在 $\boldsymbol{a}$ 处可微。直接利用定义 2.1.1 证明乘积法则，而不使用链式法则。比较两种证明的复杂程度。
完成推论 2.2.7（商法则）的详细证明：写出余项估计，验证 $\frac{\|uv^{-1} - u_0 v_0^{-1} - (v_0^{-1}h - u_0 v_0^{-2}k)\|}{\|(h,k)\|} \to 0$。
设 $f: \mathbb{R}^2 \to \mathbb{R}^2$，$f(x,y) = (x^2 - y^2, 2xy)$，$g: \mathbb{R}^2 \to \mathbb{R}$，$g(u,v) = u^2 + v^2$。令 $h = g \circ f$。
- (a) 直接写出 $h(x,y)$ 的显式并求偏导数。
- (b) 用链式法则计算 $h'(x,y)$，并与 (a) 比较。
- (c) 这个计算结果有何几何意义？（提示：$f$ 对应于复数的平方映射，$g$ 是模长的平方。）
设 $f, g: \mathbb{R}^3 \to \mathbb{R}^3$ 在 $\boldsymbol{a}$ 处可微。定义 $h(\boldsymbol{x}) = f(\boldsymbol{x}) \times g(\boldsymbol{x})$（叉积）。利用推论 2.2.9 求 $Dh(\boldsymbol{a})$ 的表达式。

【概念辨析型】

判断下列命题的真伪，并给出理由或反例：
- (a) 若 $f$ 在 $\boldsymbol{a}$ 处可微，$g$ 在 $f(\boldsymbol{a})$ 处不可微，则 $g \circ f$ 在 $\boldsymbol{a}$ 处一定不可微。
- (b) 若 $f$ 在 $\boldsymbol{a}$ 处不可微，但 $g$ 在 $f(\boldsymbol{a})$ 处可微，则 $g \circ f$ 在 $\boldsymbol{a}$ 处一定不可微。
- (c) 链式法则的矩阵形式 $(g \circ f)'(\boldsymbol{a}) = g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a})$ 中，右边的矩阵乘积顺序可以交换（即 $f'(\boldsymbol{a}) \cdot g'(f(\boldsymbol{a}))$ 也成立）。
定理 2.2.1 的证明中，我们得到误差表达式 $\rho(\boldsymbol{h}) = S(\phi(\boldsymbol{h})) + \psi(T(\boldsymbol{h}) + \phi(\boldsymbol{h})).$ 请解释：如果 $g$ 不是可微的，而仅仅是连续的，为什么这个证明会失败？具体哪一步的估计不再成立？用开集语言来阐述：连续性保证原像保开集，但为什么这对估计 $\psi$ 的误差来说是不够的？
设 $B: \mathbb{R}^m \times \mathbb{R}^p \to \mathbb{R}^q$ 是双线性映射。证明存在常数 $C > 0$ 使得对任意 $\boldsymbol{h} \in \mathbb{R}^m$，$\boldsymbol{k} \in \mathbb{R}^p$，有 $\|B(\boldsymbol{h}, \boldsymbol{k})\| \le C \|\boldsymbol{h}\| \|\boldsymbol{k}\|$，并由此推出 $\frac{\|B(\boldsymbol{h}, \boldsymbol{k})\|}{\|(\boldsymbol{h}, \boldsymbol{k})\|} \to 0$（当 $(\boldsymbol{h}, \boldsymbol{k}) \to (\boldsymbol{0}, \boldsymbol{0})$）。
证明：若 $f: \mathbb{R}^n \to \mathbb{R}^n$ 可微且满足 $f \circ f = f$（即 $f$ 是"投影"），则对任意 $\boldsymbol{a} \in \mathbb{R}^n$，有 $Df(f(\boldsymbol{a})) \circ Df(\boldsymbol{a}) = Df(\boldsymbol{a})$。特别地，如果 $f$ 是线性映射，这个结论对应于什么矩阵等式？

上一节 2.1 导数作为最佳线性近似下一节 2.3 偏导数与可微性