第2章 · 多元函数的导数

2.3 偏导数与可微性

在 §2.1 中，我们定义了导数 $Df(\boldsymbol{a})$ 为满足一定极限条件的线性映射，并指出如果 $f$ 在 $\boldsymbol{a}$ 处可微，则所有偏导数 $D_j f^i(\boldsymbol{a})$ 存在，且雅可比矩阵 $f'(\boldsymbol{a})$ 正是 $Df(\boldsymbol{a})$ 在标准基下的矩阵。

本节的核心问题。可微性的定义虽然严格，但直接验证极限等式往往很繁琐。本节的目标是提供一个更便于实际判断的充分条件：偏导数存在且连续 $\Rightarrow$ 可微。同时，我们还需要处理一个看似独立、实则紧密相关的问题——混合偏导数在什么条件下可以交换求导顺序？这两个问题被放在同一节，是因为它们共享完全相同的分析技术（差分分解、一元中值定理、开集框架、连续性极限传递），并且都源于同一个条件：偏导数在某个开集上存在且在目标点连续。此外，混合偏导数可交换的结论（克莱罗定理）是第 4 章外微分理论中 $d^2 = 0$ 的基础，在全书中有着独立而重要的地位。

本节的技术主线。在克莱罗定理和"偏导数连续 $\Rightarrow$ 可微"的证明中，读者会反复看到一套贯穿全节的分析模式：将多元函数的增量沿坐标方向逐次分解为一维变化的和；对每一维使用一元中值定理，把增量表示为偏导数在中间点处的值乘上增量；利用偏导数的连续性，让中间点处的信息在极限下"传递"到目标点；全程用开集框架（开球的存在性与凸性）确保每一步操作合法。这套技术是多元微分学证明中反复使用的基本模式，§2.3 将让读者充分熟悉它。本节末尾的反例则用来确认各个条件的精确性——它们分别说明偏导数存在不足以保证可微、方向导数全部存在也不足够、可微也不蕴含偏导数连续。

2.3.1 偏导数的定义与计算

设 $f: \mathbb{R}^n \to \mathbb{R}^m$。对分量函数 $f^i$ 和自变量下标 $j$，偏导数 $D_j f^i(\boldsymbol{a})$ 的定义已在 §2.1 中给出：它是将除第 $j$ 个变量以外的所有变量固定时的一元函数在 $a^j$ 处的导数。形式地，

D_j f^i(\boldsymbol{a}) = \lim_{t \to 0} \frac{f^i(a^1, \dots, a^j + t, \dots, a^n) - f^i(a^1, \dots, a^n)}{t}.

当 $f$ 的值域是 $\mathbb{R}$（即 $m=1$）时，常省略上标，记作 $D_j f(\boldsymbol{a})$ 或 $\frac{\partial f}{\partial x^j}(\boldsymbol{a})$。

在计算偏导数时，只需将其余变量视作常数，应用一元函数的求导法则即可。

例 2.3.1

设 $f: \mathbb{R}^3 \to \mathbb{R}^2$，$f(x,y,z) = (x^2 y, e^{yz})$。则

\frac{\partial f^1}{\partial x} = 2xy, \quad \frac{\partial f^1}{\partial y} = x^2, \quad \frac{\partial f^1}{\partial z} = 0,

\frac{\partial f^2}{\partial x} = 0, \quad \frac{\partial f^2}{\partial y} = z e^{yz}, \quad \frac{\partial f^2}{\partial z} = y e^{yz}.

雅可比矩阵为

f'(x,y,z) = \begin{pmatrix} 2xy & x^2 & 0 \\[2pt] 0 & z e^{yz} & y e^{yz} \end{pmatrix}.

旁白：偏导数与连续性

单独一个偏导数的存在只告诉我们沿坐标轴方向的变化信息，对函数在其它方向的行为没有任何约束。因此，偏导数都存在并不保证函数连续，更不保证可微。这正是本节后半部分要详细讨论的。

用开集语言重新表述偏导数的存在性会更清晰。设 $f: \mathbb{R}^n \to \mathbb{R}$。若偏导数 $D_j f(\boldsymbol{a})$ 存在，这意味着存在某个包含 $\boldsymbol{a}$ 的开集 $U$，函数 $f$ 在 $U$ 上有定义，且限制在通过 $\boldsymbol{a}$ 且平行于第 $j$ 个坐标轴的直线与 $U$ 的交集上，一元函数 $t \mapsto f(a^1, \dots, a^{j-1}, t, a^{j+1}, \dots, a^n)$ 在 $t = a^j$ 处可导。当 $f$ 在开集 $U$ 上的每一点都具有所有偏导数时，我们说 $f$ 在 $U$ 上有偏导数。

2.3.2 高阶偏导数与混合偏导数

如果偏导数 $D_j f^i$ 本身又关于某个变量可偏导，就得到二阶偏导数。对 $m=1$ 的标量值函数，常用记号

D_k (D_j f) = D_{k,j} f = \frac{\partial^2 f}{\partial x^k \partial x^j}.

注意下标的顺序：$D_{k,j} f$ 表示先对 $x^j$ 求偏导，再对 $x^k$ 求偏导。很多教材采用相反的约定，本书始终使用"从右向左"的顺序，与函数复合的顺序一致。

当 $k \neq j$ 时，$D_{k,j} f$ 和 $D_{j,k} f$ 称为混合偏导数。一个自然的问题是：求导顺序是否可以交换？在一元微积分中，这等价于问：函数 $f$ 在一点附近是否满足 $\frac{\partial^2 f}{\partial x \partial y} = \frac{\partial^2 f}{\partial y \partial x}$。

答案是否定的——混合偏导数可能不同，但若它们连续，则必定相等。这就是克莱罗定理（也称施瓦茨定理）。为了给这个定理一个完整的证明，我们需要引入一个在微分学中反复出现的重要工具——差分。

差分的概念

设 $g: \mathbb{R} \to \mathbb{R}$ 是一元函数。在研究 $g$ 的变化时，我们经常需要考虑形如 $g(b) - g(a)$ 的表达式。当我们同时改变多个自变量时，自然需要考虑"逐个方向依次改变"所产生的累积效果。这就引出了多元差分。

对二元函数 $f: \mathbb{R}^2 \to \mathbb{R}$ 和点 $(x,y)$，以及增量 $h, k \in \mathbb{R}$，定义双重差分

\Delta(h,k) = f(x+h, y+k) - f(x+h, y) - f(x, y+k) + f(x, y).

这个表达式衡量了同时改变两个自变量相对于分别单独改变所产生的"交互效应"。如果 $f$ 是线性的（形如 $ax + by + c$），则 $\Delta(h,k) = 0$。更一般地，中值定理能将双重差分与混合偏导数联系起来：如果 $f$ 在相关区域内有二阶偏导数，则存在中间点使得

\Delta(h,k) = h k \, D_{2,1} f(\xi, \eta),

同时也可以通过不同的分解顺序得到 $\Delta(h,k) = h k \, D_{1,2} f(\xi', \eta')$。这正是证明混合偏导数相等定理的核心技巧——让差分分别用两种求导顺序表示，然后比较结果。

旁白：差分与中值定理

一元中值定理说 $g(b) - g(a) = g'(c)(b-a)$。多元差分 $\Delta(h,k)$ 是对 $f$ 依次在 $x$ 方向和 $y$ 方向应用中值定理的结果。若对 $f(x+h, y+k) - f(x, y+k)$ 这个关于 $x$ 的差分应用中值定理，则得到含有 $D_1 f$ 的表达式；再对这个表达式关于 $y$ 应用中值定理，便得到含有 $D_{2,1} f$ 的表达式。交换顺序则得到 $D_{1,2} f$。

定理 2.3.2（混合偏导数相等的充分条件）

设 $f: \mathbb{R}^n \to \mathbb{R}$ 在包含 $\boldsymbol{a}$ 的某个开集 $U$ 上具有二阶偏导数 $D_{i,j} f$ 和 $D_{j,i} f$，且它们在 $\boldsymbol{a}$ 处都连续。则

D_{i,j} f(\boldsymbol{a}) = D_{j,i} f(\boldsymbol{a}).

证明

为简化记号，取 $n=2$，$\boldsymbol{a} = (x,y)$，$i=1$，$j=2$。一般情形完全类似。设 $f$ 在包含 $(x,y)$ 的开集 $U$ 上有二阶偏导数，且 $D_{1,2} f$ 和 $D_{2,1} f$ 在 $(x,y)$ 处连续。

因为 $U$ 是开集，存在某个 $r>0$ 使得开球 $B((x,y), r) \subset U$。取实数 $h, k \neq 0$ 满足 $\|(h,k)\| < r$，则以 $(x,y)$ 和 $(x+h, y+k)$ 为对角顶点的矩形完全包含在开球内，从而包含在 $U$ 内。

考虑双重差分

\Delta(h,k) = f(x+h, y+k) - f(x+h, y) - f(x, y+k) + f(x, y).

第一步：用两种顺序表示 $\Delta(h,k)$。

先将 $\Delta(h,k)$ 重新分组，使得它自然与一个一元辅助函数的差值相联系：

\Delta(h,k) = [f(x+h, y+k) - f(x, y+k)] - [f(x+h, y) - f(x, y)].

对固定的 $h$，定义一元函数

$$g(t) = f(x+h, t) - f(x, t),$$

其中 $t$ 在 $y$ 与 $y+k$ 之间取值。

现在计算 $g(y+k) - g(y)$。由定义，

$$g(y+k) = f(x+h, y+k) - f(x, y+k),$$

$$g(y) = f(x+h, y) - f(x, y).$$

相减得

\begin{aligned} g(y+k) - g(y) &= \bigl[f(x+h, y+k) - f(x, y+k)\bigr] - \bigl[f(x+h, y) - f(x, y)\bigr] \\ &= f(x+h, y+k) - f(x+h, y) - f(x, y+k) + f(x, y) \\ &= \Delta(h,k). \end{aligned}

步骤解读

这一步的意义在于，原先 $\Delta(h,k)$ 混合了 $x$ 方向和 $y$ 方向的变化，难以直接处理。通过引入一元函数 $g$，我们把 $\Delta(h,k)$ 表示成了 $g$ 在两点 $y+k$ 和 $y$ 的差值。接下来就可以对 $g$ 直接使用一元中值定理，从而提取出关于偏导数的信息。这是整个证明中最关键的桥梁。

现在对 $g$ 求导。由于 $D_2 f$ 在 $U$ 上存在，对每个固定的 $t$，$f(x+h, t)$ 和 $f(x, t)$ 关于 $t$ 可导。由一元函数导数的线性性质，

\begin{aligned} g'(t) &= \frac{d}{dt}\bigl[f(x+h, t)\bigr] - \frac{d}{dt}\bigl[f(x, t)\bigr] \\ &= D_2 f(x+h, t) - D_2 f(x, t). \end{aligned}

步骤解读

这里用到了偏导数最本质的定义：$D_2 f(a, b)$ 就是将第一个变量固定在 $a$，然后对第二个变量求一元导数。所以 $\frac{d}{dt}f(x+h, t)$ 恰好就是 $D_2 f$ 在点 $(x+h, t)$ 处的值，$\frac{d}{dt}f(x, t)$ 就是 $D_2 f$ 在点 $(x, t)$ 处的值。这个联系是偏导数定义的直接推论，也是整个证明能够将多元问题化为一元问题来处理的基础。

由一元中值定理，存在 $c$ 在 $y$ 与 $y+k$ 之间，使得

g(y+k) - g(y) = g'(c) \, k = [D_2 f(x+h, c) - D_2 f(x, c)] \, k.

因为 $g(y+k) - g(y) = \Delta(h,k)$，所以

\Delta(h,k) = [D_2 f(x+h, c) - D_2 f(x, c)] \, k.

现在对 $D_2 f(\cdot, c)$ 这个关于第一个变量的函数应用中值定理。因为 $D_1(D_2 f) = D_{1,2} f$ 在 $U$ 上存在，存在 $d$ 在 $x$ 与 $x+h$ 之间，使得

D_2 f(x+h, c) - D_2 f(x, c) = D_1(D_2 f)(d, c) \, h = D_{1,2} f(d, c) \, h.

这里需要保证点 $(d, c)$ 仍在 $U$ 内。因为 $d$ 在 $x$ 与 $x+h$ 之间，$c$ 在 $y$ 与 $y+k$ 之间，而整个矩形包含在开球 $B((x,y), r) \subset U$ 中，且开球是凸集（球中任意两点连线全部在球内），所以 $(d, c)$ 确实在 $U$ 中。因此，上述中值定理的应用合法。

从而

\Delta(h,k) = D_{1,2} f(d, c) \, h k. \tag{1}

另一方面，将 $\Delta(h,k)$ 换一种方式分组：

\Delta(h,k) = [f(x+h, y+k) - f(x+h, y)] - [f(x, y+k) - f(x, y)].

这一次，先对 $x$ 应用中值定理，再对 $y$ 应用中值定理。具体地，固定 $k$，对函数 $u \mapsto f(u, y+k) - f(u, y)$ 在 $x$ 与 $x+h$ 之间应用中值定理，得到某个 $d'$ 在 $x$ 与 $x+h$ 之间；然后再对结果关于 $y$ 应用中值定理，得到某个 $c'$ 在 $y$ 与 $y+k$ 之间。由此

\Delta(h,k) = D_{2,1} f(d', c') \, h k. \tag{2}

同样，点 $(d', c')$ 落在矩形内，从而在 $U$ 中。

第二步：利用连续性取极限。

由于 $h, k \neq 0$，从 (1) 和 (2) 可得

D_{1,2} f(d, c) = D_{2,1} f(d', c').

现在令 $(h,k) \to (0,0)$。由中值点的构造，当 $h \to 0$ 时 $d \to x$ 且 $d' \to x$；当 $k \to 0$ 时 $c \to y$ 且 $c' \to y$。因此当 $(h,k) \to (0,0)$ 时，$(d,c) \to (x,y)$ 且 $(d',c') \to (x,y)$。

由于 $D_{1,2} f$ 和 $D_{2,1} f$ 都在 $(x,y)$ 处连续，我们有

\lim_{(h,k) \to (0,0)} D_{1,2} f(d, c) = D_{1,2} f(x,y), \qquad \lim_{(h,k) \to (0,0)} D_{2,1} f(d', c') = D_{2,1} f(x,y).

而这两个极限分别是等式 $D_{1,2} f(d, c) = D_{2,1} f(d', c')$ 两边的极限，因此它们必须相等：

D_{1,2} f(x,y) = D_{2,1} f(x,y).

这就完成了证明。 ∎

步骤解读

这个证明的精髓在于双重差分 $\Delta(h,k)$。它的巧妙之处在于：通过两种不同的分组方式，将同一个量分别与 $D_{1,2} f$ 和 $D_{2,1} f$ 联系起来。引入一元辅助函数 $g(t) = f(x+h, t) - f(x, t)$ 是将差分与中值定理连接的桥梁——它把涉及两个变量的双重差分转化为一元函数在两点的差值，从而可以直接使用一元中值定理提取出偏导数信息。中值定理提供了等式 $D_{1,2} f(d, c) = D_{2,1} f(d', c')$，而连续性则允许我们在极限下将这个等式"传递"到目标点 $(x,y)$。证明中多次使用了开集 $U$ 的性质：开球的存在性保证了矩形完全在 $U$ 内，而开球的凸性又保证了中值定理的中间点始终在 $U$ 内，从而函数及其偏导数有定义。

旁白：连续性条件不可省

存在这样的函数，其二阶混合偏导数在某点都存在但不相等，这时它们必然在该点不连续。经典反例见练习 2.3 第 4 题。因此定理 2.3.2 的结论虽强，前提（连续性）也确实是必需的。

对于具有直至 $r$ 阶连续偏导数的函数，我们称其为 $C^r$ 函数。若所有阶的偏导数都连续，则称为 $C^\infty$ 函数（光滑函数）。对于 $C^2$ 函数，定理 2.3.2 保证了混合偏导数可以任意交换顺序。

两个定理之间的过渡

在进入下一个定理之前，我们暂停片刻，回顾一下刚才完成的工作与即将展开的论证之间的关系。

定理 2.3.2 的证明使用了一套在多元分析中反复出现的技术：差分分解 + 一元中值定理 + 连续性极限传递。具体来说——

我们构造了双重差分 $\Delta(h,k)$，将两个方向的变化"打包"为一个量。
引入一元辅助函数 $g(t) = f(x+h, t) - f(x, t)$，将双重差分化为一元函数在两点的差，从而能够使用一元中值定理。
两次使用一元中值定理，分别得到混合偏导数 $D_{1,2} f$ 和 $D_{2,1} f$ 在中间点处的信息。
利用开集框架——开球的存在性保证了矩形完全在定义域内，开球的凸性保证了中值定理的中间点始终在定义域内——确保每一步操作合法。
最后，偏导数的连续性让中间点处的等式在极限下"传递"到目标点。

这套技术不是定理 2.3.2 的专利。接下来的定理 2.3.3（偏导数连续蕴含可微）将使用完全相同的工具，只是场景从两个方向扩展到 $n$ 个方向，从混合偏导数扩展到一阶偏导数。读者在定理 2.3.3 的证明中会再次看到差分分解、一元中值定理和连续性极限传递的协同工作，届时会发现这些步骤已经熟悉。

值得强调的是，定理 2.3.2 并不仅仅是定理 2.3.3 的"热身"——它在全书中有着独立的、不可替代的地位。在 §4.3 中，我们将定义微分形式的外微分算子 $d$，并证明 $d^2 = 0$。这个看似简单的代数性质，其证明依赖于混合偏导数的可交换性，即定理 2.3.2。更远地，在第 5 章流形上的斯托克斯定理中，外微分同样满足 $d^2 = 0$，其合法性同样可以追溯到本节建立的这个定理。因此，定理 2.3.2 是连接多元微分学与外微分理论的关键桥梁。

总的来说，定理 2.3.2 和定理 2.3.3 是同一条件的两个并列后果——两者都以"偏导数在某个开集上存在且在目标点连续"为前提。定理 2.3.2 告诉我们，在这个条件下，求导顺序可以交换；定理 2.3.3 告诉我们，在这个条件下，函数本身可微。两者共同展示了偏导数连续性这一条件的强大威力。

2.3.3 偏导数连续蕴含可微

我们已经知道，可微性严格强于偏导数的存在性。然而，验证一个函数是否满足原始定义中的极限等式通常较繁琐。以下定理提供了一个易于检查的充分条件：如果所有偏导数在某个开集内存在且在某点连续，则函数在该点可微。这极大简化了大多数初等函数的可微性判断。

定理 2.3.3（偏导数连续 $\Rightarrow$ 可微）

设 $f: \mathbb{R}^n \to \mathbb{R}^m$。若存在包含 $\boldsymbol{a}$ 的开集 $U$，使得对每个 $i, j$，偏导数 $D_j f^i$ 在 $U$ 上存在，且在 $\boldsymbol{a}$ 处连续，则 $f$ 在 $\boldsymbol{a}$ 处可微。

旁白：开集语言在此处的角色

"存在包含 $\boldsymbol{a}$ 的开集 $U$" 是用开集语言表达"在 $\boldsymbol{a}$ 的某个邻域内"的精确说法。这与 §1.3 中定义连续性、可微性时的语言完全一致：我们需要偏导数在 $\boldsymbol{a}$ 附近都有定义（而不仅仅在 $\boldsymbol{a}$ 处存在），才能在证明中使用中值定理。此外，开集的凸性（通过开球）保证了中值定理的中间点始终在定义域内。

证明

只需考虑 $m=1$ 的情形（因为向量值函数的可微性等价于每个分量可微）。设 $f: \mathbb{R}^n \to \mathbb{R}$ 满足条件。我们的目标是证明线性映射 $T(\boldsymbol{h}) = \sum_{j=1}^n D_j f(\boldsymbol{a}) h^j$ 满足定义 2.1.1。

由条件，存在开集 $U$ 包含 $\boldsymbol{a}$，使得所有偏导数在 $U$ 上存在且在 $\boldsymbol{a}$ 处连续。因为 $U$ 是开集，存在 $r>0$ 使得开球 $B(\boldsymbol{a}, r) \subset U$。以下取 $\boldsymbol{h}$ 满足 $\|\boldsymbol{h}\| < r$，则 $\boldsymbol{a}+\boldsymbol{h} \in B(\boldsymbol{a}, r) \subset U$。

将增量 $f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a})$ 沿坐标方向逐次分解。为简化记号，以 $n=2$ 为例写出核心步骤；一般情形完全类似。

设 $\boldsymbol{a} = (a,b)$，$\boldsymbol{h} = (h,k)$ 满足 $\|(h,k)\| < r$。考虑

\begin{aligned} f(a+h, b+k) - f(a,b) &= [f(a+h, b+k) - f(a+h, b)] \\ &\quad + [f(a+h, b) - f(a,b)]. \end{aligned}

步骤解读

这是证明中最关键的一步——将二维变化分解为沿两个坐标轴方向的两次一维变化之和。这种逐方向分解的技巧将在多元分析中反复出现。

对第一个方括号内的差，将 $y$ 视为变量，$x=a+h$ 固定。因为 $D_2 f$ 在 $U$ 上存在，函数 $y \mapsto f(a+h, y)$ 在 $b$ 与 $b+k$ 之间可导。由一元中值定理，存在 $\theta_1 \in (0,1)$ 使得

f(a+h, b+k) - f(a+h, b) = k \cdot D_2 f(a+h, b + \theta_1 k).

这里点 $(a+h, b+\theta_1 k)$ 落在连接 $(a+h, b)$ 与 $(a+h, b+k)$ 的线段上，该线段包含在开球 $B(\boldsymbol{a}, r)$ 内（开球是凸集），从而在 $U$ 内。因此中值定理合法。

对第二个方括号，将 $x$ 视为变量，$y=b$ 固定。由一元中值定理，存在 $\theta_2 \in (0,1)$ 使得

f(a+h, b) - f(a,b) = h \cdot D_1 f(a + \theta_2 h, b).

类似地，点 $(a+\theta_2 h, b)$ 也包含在开球内，从而在 $U$ 内。

于是

f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = h D_1 f(a+\theta_2 h, b) + k D_2 f(a+h, b+\theta_1 k).

我们的候选线性映射为 $T(h,k) = h D_1 f(a,b) + k D_2 f(a,b)$。因此误差为

\begin{aligned} f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T(\boldsymbol{h}) &= h [D_1 f(a+\theta_2 h, b) - D_1 f(a,b)] \\ &\quad + k [D_2 f(a+h, b+\theta_1 k) - D_2 f(a,b)]. \end{aligned}

两边除以 $\|\boldsymbol{h}\| = \sqrt{h^2 + k^2}$，并注意 $|h| \le \|\boldsymbol{h}\|, |k| \le \|\boldsymbol{h}\|$，得

\begin{aligned} \frac{|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T(\boldsymbol{h})|}{\|\boldsymbol{h}\|} &\le |D_1 f(a+\theta_2 h, b) - D_1 f(a,b)| \\ &\quad + |D_2 f(a+h, b+\theta_1 k) - D_2 f(a,b)|. \end{aligned}

步骤解读

至此，可微性的误差被分解为两部分的绝对值之和。第一部分是 $D_1 f$ 在点 $(a+\theta_2 h, b)$ 的值与它在 $(a,b)$ 的值的差；第二部分是 $D_2 f$ 在点 $(a+h, b+\theta_1 k)$ 的值与它在 $(a,b)$ 的值的差。由于中值定理的中间点随着 $\boldsymbol{h} \to \boldsymbol{0}$ 而趋近于 $(a,b)$，偏导数的连续性恰好保证了这两部分都趋于零。

当 $\boldsymbol{h} \to \boldsymbol{0}$ 时，$(a+\theta_2 h, b) \to (a,b)$，$(a+h, b+\theta_1 k) \to (a,b)$。由于 $D_1 f$ 和 $D_2 f$ 都在 $(a,b)$ 处连续，右边两项均趋于 $0$。这就证明了

\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T(\boldsymbol{h})|}{\|\boldsymbol{h}\|} = 0,

即 $f$ 在 $\boldsymbol{a}$ 处可微，且导数为 $T$。

对于一般的 $n$，可将增量分解为 $n$ 项：

\begin{aligned} f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = \sum_{j=1}^n \big[ &f(a^1+h^1, \dots, a^j+h^j, a^{j+1}, \dots, a^n) \\ &- f(a^1+h^1, \dots, a^{j-1}+h^{j-1}, a^j, \dots, a^n)\big]. \end{aligned}

每一项是沿第 $j$ 个坐标方向的一维变化，应用中值定理即得含有 $D_j f$ 的表达式。为保证中值定理的中间点始终在 $U$ 内，仍然需要开球 $B(\boldsymbol{a}, r)$ 的凸性。结合各偏导数在 $\boldsymbol{a}$ 处的连续性，误差估计完全类似。 ∎

旁白：中值定理是沟通偏导数与整体变化的关键

上述证明的本质是：将多元函数的增量用逐个方向的一元中值定理分解，从而将整体变化表示为各偏导数在某中间点处的值乘上相应增量。连续性保证了这些中间点处的偏导数与 $\boldsymbol{a}$ 处的偏导数足够接近，从而误差可控。这种"坐标方向分解 + 中值定理 + 连续性"的组合方法在多元分析中十分常用。开集框架在此处起到了两个作用：一是通过开球的存在性为所有操作提供一个"安全区域"；二是通过开球的凸性确保中值定理的中间点始终落在这个安全区域内。

在定理 2.3.3 的证明中，我们使用了逐点中值定理来处理增量分解后的每一项。但还有一种更高效的工具——将偏导数的逐点界转化为映射整体的 Lipschitz 估计。这个估计不仅是本节证明的变体，更是 §2.4 反函数定理证明中不可或缺的一环。下面我们将其作为一个独立引理给出完整的证明。

引理 2.3.5（偏导数界 $\Rightarrow$ Lipschitz 估计）

设 $U \subset \mathbb{R}^n$ 是凸开集（例如一个开球），$\boldsymbol{f}: U \to \mathbb{R}^m$ 在 $U$ 上可微。若存在常数 $M > 0$ 使得对所有 $\boldsymbol{x} \in U$ 和所有 $i, j$，有 $|D_j f^i(\boldsymbol{x})| \le M$，则对任意 $\boldsymbol{x}, \boldsymbol{y} \in U$，

\|\boldsymbol{f}(\boldsymbol{x}) - \boldsymbol{f}(\boldsymbol{y})\| \le n^2 M \|\boldsymbol{x} - \boldsymbol{y}\|.

证明

首先考虑 $m = 1$ 的情形（标量值函数 $f: U \to \mathbb{R}$），然后将分量范数相加推广到一般情形。

标量值情形。设 $\boldsymbol{x} = (x^1, \dots, x^n)$，$\boldsymbol{y} = (y^1, \dots, y^n)$。将差值 $f(\boldsymbol{y}) - f(\boldsymbol{x})$ 沿坐标方向逐次分解：从 $\boldsymbol{x}$ 出发，每次只改变一个坐标，逐步到达 $\boldsymbol{y}$。具体地，

\begin{aligned} f(\boldsymbol{y}) - f(\boldsymbol{x}) = &\,[f(y^1, y^2, \dots, y^n) - f(x^1, y^2, \dots, y^n)] \\ + &\,[f(x^1, y^2, \dots, y^n) - f(x^1, x^2, y^3, \dots, y^n)] \\ + &\,\cdots \\ + &\,[f(x^1, \dots, x^{n-1}, y^n) - f(x^1, \dots, x^{n-1}, x^n)]. \end{aligned}

共有 $n$ 项，每项仅改变一个坐标。对第 $j$ 项，定义一元函数

g_j(t) = f(x^1, \dots, x^{j-1}, t, y^{j+1}, \dots, y^n),

其中 $t$ 在 $x^j$ 与 $y^j$ 之间变化。由于 $U$ 是凸集，连接 $\boldsymbol{x}$ 与 $\boldsymbol{y}$ 的线段以及所有中间点都在 $U$ 内，因此 $g_j$ 在 $x^j$ 与 $y^j$ 之间的闭区间上有定义且可导，且

g_j'(t) = D_j f(x^1, \dots, x^{j-1}, t, y^{j+1}, \dots, y^n).

由一元中值定理，存在 $c_j$ 在 $x^j$ 与 $y^j$ 之间，使得

$$g_j(y^j) - g_j(x^j) = g_j'(c_j)(y^j - x^j).$$

由条件，$|g_j'(c_j)| \le M$。因此第 $j$ 项的绝对值不超过 $M |y^j - x^j|$。综合起来，

|f(\boldsymbol{y}) - f(\boldsymbol{x})| \le \sum_{j=1}^n M |y^j - x^j| \le M \sum_{j=1}^n |y^j - x^j|.

由于每个坐标差不超过向量的范数（$|y^j - x^j| \le \|\boldsymbol{y} - \boldsymbol{x}\|$），故

|f(\boldsymbol{y}) - f(\boldsymbol{x})| \le n M \|\boldsymbol{y} - \boldsymbol{x}\|.

向量值情形。对每个分量 $f^i$ 应用上述估计，得 $|f^i(\boldsymbol{y}) - f^i(\boldsymbol{x})| \le n M \|\boldsymbol{y} - \boldsymbol{x}\|$。于是

\|\boldsymbol{f}(\boldsymbol{y}) - \boldsymbol{f}(\boldsymbol{x})\| \le \sum_{i=1}^m |f^i(\boldsymbol{y}) - f^i(\boldsymbol{x})| \le \sum_{i=1}^m n M \|\boldsymbol{y} - \boldsymbol{x}\| = n m M \|\boldsymbol{y} - \boldsymbol{x}\|.

对 $\boldsymbol{f}: U \to \mathbb{R}^n$（即 $m = n$），上式为 $n^2 M \|\boldsymbol{y} - \boldsymbol{x}\|$，这正是引理的结论。 ∎

步骤解读

这个证明本质上是将定理 2.3.3 中的中值定理应用模式独立出来，使其成为一个可复用的工具。核心技巧仍然是"沿坐标方向逐次分解 + 一元中值定理 + 偏导数界求和"。常数 $n^2 M$ 并不精妙——它只是一个存在的有限数。在 §2.4 反函数定理的证明中，我们将使用这个引理将 $\boldsymbol{g}$ 的偏导数的微小界转化为 $\boldsymbol{g}$ 的整体压缩性质。

推论 2.3.6（偏导数在原点为零时的局部压缩）

设 $\boldsymbol{g}: B(\boldsymbol{0}, r_0) \to \mathbb{R}^n$ 在原点附近是 $C^1$ 的，且 $\boldsymbol{g}(\boldsymbol{0}) = \boldsymbol{0}$，$D\boldsymbol{g}(\boldsymbol{0}) = 0$。则对任意常数 $c \in (0, 1)$，存在 $r \in (0, r_0)$ 使得 $\boldsymbol{g}$ 在 $B(\boldsymbol{0}, r)$ 上是 Lipschitz 的，且 Lipschitz 常数不超过 $c$。

证明

由偏导数的连续性，对任意 $\varepsilon > 0$，存在 $r > 0$ 使得对 $B(\boldsymbol{0}, r)$ 内所有 $\boldsymbol{x}$ 和所有 $i, j$，有 $|D_j g^i(\boldsymbol{x})| \le \varepsilon$。取 $\varepsilon = c / n^2$，由引理 2.3.5，对任意 $\boldsymbol{x}, \boldsymbol{z} \in B(\boldsymbol{0}, r)$，

\|\boldsymbol{g}(\boldsymbol{x}) - \boldsymbol{g}(\boldsymbol{z})\| \le n^2 \cdot \frac{c}{n^2} \cdot \|\boldsymbol{x} - \boldsymbol{z}\| = c \|\boldsymbol{x} - \boldsymbol{z}\|. \quad \square

这个推论的价值在于：它将"导数为零"这一局部信息，通过偏导数的连续性，转化为"映射在局部是压缩的"这一整体性质。在 §2.4 反函数定理的证明中，我们将对 $\boldsymbol{g}(\boldsymbol{x}) = \boldsymbol{x} - f(\boldsymbol{x})$ 使用这个推论（取 $c = 1/2$），从而获得压缩映射原理所需的条件。

推论 2.3.4（$C^1$ 函数的可微性）

若 $f$ 在开集 $U \subset \mathbb{R}^n$ 上所有偏导数存在且连续（此时称 $f$ 在 $U$ 上是 $C^1$ 的），则 $f$ 在 $U$ 上可微，且导数映射 $\boldsymbol{x} \mapsto Df(\boldsymbol{x})$ 连续。

这个推论表明，对于绝大多数由初等函数通过四则运算和复合得到的多元函数，只要偏导数在定义域内连续，就可以放心地使用链式法则等求导工具，而不必每次都回到原始定义。

2.3.4 反例与边界情形

为了加深对可微性严格强于偏导数存在的认识，我们列出三个典型的反例。

例 2.3.7（偏导数存在但不连续）

函数 $f: \mathbb{R}^2 \to \mathbb{R}$ 定义为

f(x,y) = \begin{cases} \dfrac{xy}{x^2 + y^2}, & (x,y) \neq (0,0), \\[1em] 0, & (x,y) = (0,0). \end{cases}

在原点的两个偏导数都存在且为零（因为沿两坐标轴函数恒为零）。但 $f$ 在原点不连续：沿直线 $y = mx$ 逼近时，极限值为 $\frac{m}{1+m^2}$，随 $m$ 不同而变化。因此 $f$ 在原点不可微。

例 2.3.8（方向导数都存在但不可微）

在 §2.1 中我们曾提到函数 $f(x,y) = \frac{x^2 y}{x^4 + y^2}$（原点补充为 0）。该函数在原点的所有方向导数都存在（且为零），但在原点不可微，甚至不连续：沿抛物线 $y = x^2$ 逼近原点时，函数值恒为 $1/2$，并不趋于 0。这说明即使有全部方向导数的信息，仍不足以推出可微性。

例 2.3.9（可微但偏导数不连续）

定理 2.3.3 的逆命题不成立。一个可微函数的偏导数未必连续。例如

f(x) = \begin{cases} x^2 \sin(1/x), & x \neq 0, \\ 0, & x=0, \end{cases}

是一元可微但导数不连续的例子。在多元情形，可以构造

f(x,y) = \begin{cases} (x^2 + y^2) \sin\!\Big(\dfrac{1}{\sqrt{x^2+y^2}}\Big), & (x,y) \neq (0,0), \\[1em] 0, & (x,y) = (0,0). \end{cases}

该函数在原点可微（因为 $|f(x,y)| \le x^2 + y^2$，误差估计见练习 2.3 第 6 题），但偏导数在原点附近振荡，不连续。

本节小结

回顾 §2.3 的整条逻辑线：我们从偏导数的定义出发，引入了混合偏导数和双重差分的概念，证明了克莱罗定理（定理 2.3.2）——在偏导数连续的条件下，求导顺序可以交换。随后，我们使用差分分解、一元中值定理与开集框架这套贯穿全节的技术，证明了本节的核心结论（定理 2.3.3）：偏导数连续蕴含可微。在此基础上，我们进一步证明了偏导数界到 Lipschitz 估计的引理 2.3.5 及其推论 2.3.6，为 §2.4 反函数定理的证明做好了技术准备。最后，三个反例精确地标定了可微性在"偏导数存在"与"偏导数连续"之间的位置：偏导数存在不足以保证可微，可微也不蕴含偏导数连续。读者在后续章节中遇到的绝大多数函数都是 $C^1$ 的（偏导数连续），因此定理 2.3.3 为实际判断可微性提供了最常用的充分条件。而定理 2.3.2 将在第 4 章外微分 $d^2 = 0$ 的证明中重新登场，成为连接多元微分学与外微分理论的关键桥梁。

练习 2.3

【计算验证型】

设 $f: \mathbb{R}^3 \to \mathbb{R}^2$，$f(x,y,z) = (x^2 + y^2 + z^2, e^{x+y+z})$。写出雅可比矩阵，并指出哪些偏导数在 $\mathbb{R}^3$ 上连续。
设 $f(x,y) = \begin{cases} \dfrac{x^3 + y^3}{x^2 + y^2}, & (x,y) \neq (0,0), \\ 0, & (0,0). \end{cases}$
- (a) 计算偏导数 $D_1 f(x,y), D_2 f(x,y)$（当 $(x,y) \neq (0,0)$）以及在原点的偏导数。
- (b) 验证这些偏导数在原点是否连续？
- (c) $f$ 在原点是否可微？若可微，给出 $Df(0,0)$。
设 $f(x,y) = xy^2 + y \sin x$。验证它满足定理 2.3.3 的条件，从而可微。
（混合偏导数不等例）定义 $f(x,y) = \begin{cases} \dfrac{xy(x^2 - y^2)}{x^2 + y^2}, & (x,y) \neq (0,0), \\[1em] 0, & (x,y) = (0,0). \end{cases}$ 证明 $D_{1,2}f(0,0) \neq D_{2,1}f(0,0)$，并解释为什么这并不与定理 2.3.2 矛盾。

【概念辨析型】

判断下列命题的真伪，并给出理由或反例：
- (a) 若 $f$ 在 $\boldsymbol{a}$ 处所有偏导数存在，则 $f$ 在 $\boldsymbol{a}$ 处连续。
- (b) 若 $f$ 在 $\boldsymbol{a}$ 处可微，则 $f$ 的所有偏导数在 $\boldsymbol{a}$ 处连续。
- (c) 若 $f$ 在开集 $U$ 上所有偏导数存在且有界，则 $f$ 在 $U$ 上连续。
- (d) 若 $f, g: \mathbb{R}^n \to \mathbb{R}$ 可微，则 $D(fg) = f Dg + g Df$。
设 $f: \mathbb{R}^2 \to \mathbb{R}$ 满足 $|f(x,y)| \le x^2 + y^2$。证明 $f$ 在 $(0,0)$ 处可微，并求 $Df(0,0)$。
（定理 2.3.3 的证明推广）补全当 $n$ 为任意正整数时定理 2.3.3 的证明，写出一般情况下的差分分解与误差估计。注意在每一步中如何利用开球的凸性保证中值定理的中间点仍在定义域内。
详细证明例 2.3.8 中的函数 $f(x,y) = \frac{x^2 y}{x^4 + y^2}$（原点补充为 0）在原点所有方向导数存在，但不可微（甚至不连续）。提示：沿抛物线 $y = x^2$ 考虑极限。

上一节 2.2 链式法则下一节 2.4 反函数定理