第2章 · 多元函数的导数

2.1 导数作为最佳线性近似

在初等微积分中，一元函数 $f: \mathbb{R} \to \mathbb{R}$ 在点 $a$ 处的导数定义为极限

f'(a) = \lim_{h \to 0} \frac{f(a+h) - f(a)}{h},

如果该极限存在。这个数 $f'(a)$ 携带了几何信息——它是曲线 $y = f(x)$ 在点 $(a, f(a))$ 处切线的斜率——同时也是函数在 $a$ 附近局部行为的刻画：当 $h$ 很小时，

f(a+h) \approx f(a) + f'(a) \cdot h.

本节将这个定义推广到多元映射 $f: \mathbb{R}^n \to \mathbb{R}^m$。推广的核心思想是：导数不应再被视为一个数，而应被视为一个线性映射。

2.1.1 一维情形的重新审视

在进入高维定义之前，我们先重新解读一元函数的导数。设 $f: \mathbb{R} \to \mathbb{R}$ 在 $a$ 处可微，导数为 $f'(a)$。考虑映射

\lambda(h) = f'(a) \cdot h.

这个 $\lambda: \mathbb{R} \to \mathbb{R}$ 是一个线性映射（§1.2）：它将输入的变化量 $h$ 映射为输出的变化量 $f'(a)h$，满足 $\lambda(h_1 + h_2) = \lambda(h_1) + \lambda(h_2)$ 和 $\lambda(c h) = c\lambda(h)$。

用这个线性映射，导数定义中的极限

\lim_{h \to 0} \frac{f(a+h) - f(a)}{h} = f'(a)

可以等价地改写为

\lim_{h \to 0} \frac{|f(a+h) - f(a) - \lambda(h)|}{|h|} = 0.

这一写法将"导数"从"差商的极限"转变为一个关于线性映射的陈述：存在一个线性映射 $\lambda$，使得用 $\lambda(h)$ 去逼近差值 $f(a+h) - f(a)$ 时，误差 $f(a+h) - f(a) - \lambda(h)$ 不仅是无穷小，而且比 $h$ 更快地趋于零。换句话说，$\lambda(h) = f'(a)h$ 是 $f(a+h) - f(a)$ 的最佳线性近似。

旁白：为什么要改写？

在一维情形中，$f'(a)$ 本身是一个数，它与线性映射 $h \mapsto f'(a)h$ 之间可以一一对应。但在高维中，我们无法用一个数来刻画所有方向的变化率——必须用一个线性映射（矩阵）来同时编码所有方向的信息。改写后的形式不再依赖"除以 $h$"的操作（在高维中，除以一个向量没有意义），而是依赖范数的比较，因此可以自然地推广到 $\mathbb{R}^n$ 和 $\mathbb{R}^m$。

2.1.2 多元函数可微性的定义

设 $f: \mathbb{R}^n \to \mathbb{R}^m$，$\boldsymbol{a} \in \mathbb{R}^n$。我们希望将 $f$ 在 $\boldsymbol{a}$ 处的导数定义为一个线性映射 $T: \mathbb{R}^n \to \mathbb{R}^m$，它满足

f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) \approx T(\boldsymbol{h}),

且当 $\boldsymbol{h} \to \boldsymbol{0}$ 时，误差比 $\|\boldsymbol{h}\|$ 更快地趋于零。

定义 2.1.1（可微性与导数）

映射 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在点 $\boldsymbol{a} \in \mathbb{R}^n$ 处可微，如果存在一个线性映射 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$，使得

\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - T(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0.

如果这样的 $T$ 存在，则称 $T$ 为 $f$ 在 $\boldsymbol{a}$ 处的导数，记作 $Df(\boldsymbol{a})$。

旁白：类型标注

$f: \mathbb{R}^n \to \mathbb{R}^m$ 是映射，$\boldsymbol{a} \in \mathbb{R}^n$ 是点，$\boldsymbol{h} \in \mathbb{R}^n$ 是（微小的）变化向量。

$Df(\boldsymbol{a}) \in L(\mathbb{R}^n, \mathbb{R}^m)$ 是一个线性映射。

$f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a})$ 是输出的实际变化量（$\mathbb{R}^m$ 中的向量）。

$Df(\boldsymbol{a})(\boldsymbol{h})$ 是用导数线性近似预测的变化量（也是 $\mathbb{R}^m$ 中的向量）。

这个定义有几个要点值得逐一说明。

1. 极限的含义。 式子中的极限 $\boldsymbol{h} \to \boldsymbol{0}$ 是在 $\mathbb{R}^n$ 中取的——即 $\boldsymbol{h} = (h^1, \dots, h^n)$ 的所有分量同时趋于零。分子是 $\mathbb{R}^m$ 中的范数，分母是 $\mathbb{R}^n$ 中的范数（两者都是正实数），它们的比值是一个非负实数。极限为零意味着当 $\boldsymbol{h}$ 足够接近 $\boldsymbol{0}$ 时，误差的范数可以任意小于 $\|\boldsymbol{h}\|$ 的某个倍数。换言之，误差是 $\|\boldsymbol{h}\|$ 的高阶无穷小：$f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$。

2. 唯一性。 定义中的线性映射 $T$ 如果存在，则必唯一。这是一个关键性质，确保了我们可以说"导数"而不引起歧义。

定理 2.1.2（导数的唯一性）

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，则导数 $Df(\boldsymbol{a})$ 是唯一的。

证明

设 $T_1, T_2 \in L(\mathbb{R}^n, \mathbb{R}^m)$ 都满足定义 2.1.1 的条件。我们要证对任意 $\boldsymbol{v} \in \mathbb{R}^n$，有 $T_1(\boldsymbol{v}) = T_2(\boldsymbol{v})$。

由两个极限条件相减（利用三角不等式），对任意 $\boldsymbol{h} \in \mathbb{R}^n$，有

\frac{\|T_1(\boldsymbol{h}) - T_2(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} \le \frac{\|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T_1(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} + \frac{\|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T_2(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}.

令 $\boldsymbol{h} \to \boldsymbol{0}$。根据可微性定义，右边两项都趋于 $0$。因此左边也趋于 $0$：

\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|T_1(\boldsymbol{h}) - T_2(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0. \tag{*}

现在，对任意固定的 $\boldsymbol{v} \in \mathbb{R}^n$（若 $\boldsymbol{v} = \boldsymbol{0}$，$T_1(\boldsymbol{0}) = \boldsymbol{0} = T_2(\boldsymbol{0})$ 自动成立），考虑 $\boldsymbol{h} = t\boldsymbol{v}$，其中 $t \in \mathbb{R}$ 是标量参数。当 $t \to 0$ 时，$t\boldsymbol{v} \to \boldsymbol{0}$，由 $(*)$ 得

\lim_{t \to 0} \frac{\|T_1(t\boldsymbol{v}) - T_2(t\boldsymbol{v})\|}{\|t\boldsymbol{v}\|} = 0.

由于 $T_1, T_2$ 是线性映射，$T_1(t\boldsymbol{v}) = t T_1(\boldsymbol{v})$，$T_2(t\boldsymbol{v}) = t T_2(\boldsymbol{v})$；又由范数的齐次性，$\|t\boldsymbol{v}\| = |t| \|\boldsymbol{v}\|$。代入上式，得

\frac{\|t(T_1 - T_2)(\boldsymbol{v})\|}{|t| \|\boldsymbol{v}\|} = \frac{\|(T_1 - T_2)(\boldsymbol{v})\|}{\|\boldsymbol{v}\|}.

注意，左边化简后的表达式与 $t$ 无关！它是一个常数。

因此，

0 = \lim_{t \to 0} \frac{\|T_1(t\boldsymbol{v}) - T_2(t\boldsymbol{v})\|}{\|t\boldsymbol{v}\|} = \frac{\|(T_1 - T_2)(\boldsymbol{v})\|}{\|\boldsymbol{v}\|}.

由此推出 $\|(T_1 - T_2)(\boldsymbol{v})\| = 0$，即 $T_1(\boldsymbol{v}) = T_2(\boldsymbol{v})$。由 $\boldsymbol{v}$ 的任意性，$T_1 = T_2$。 ∎

旁白：为什么不能直接从 $(*)$ 推出 $T_1 = T_2$？

考虑一元函数 $g(h)$ 满足 $\lim_{h \to 0} g(h) = 0$。如果 $h = 3$ 是固定的，我们能说 $g(3)$ 等于多少吗？不能。极限只告诉我们当 $h$ 很小时 $g(h)$ 接近 $0$，但 $h = 3$ 时的值完全可以是任何数。同样的逻辑：$(*)$ 保证了分式在 $\boldsymbol{h} \to \boldsymbol{0}$ 时趋于零，但没有对任何一个固定的 $\boldsymbol{h} \neq \boldsymbol{0}$ 做出任何承诺。因此，直接从 $(*)$ 跳到"对任意 $\boldsymbol{v}$，分式为零"是不合法的。

旁白：引入参数 $t$ 的深层理由

这个证明揭示了线性映射在可微性理论中的一个本质角色：线性映射的齐次性使得 $\frac{\|T(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}$ 沿每条射线都是常数。因此，关于 $\boldsymbol{h} \to \boldsymbol{0}$ 的极限信息可以通过射线"传递"到整个空间中的任意向量上。如果 $T_1, T_2$ 不是线性的，这个传递机制就不复存在，唯一性也不再保证。这正是为什么导数必须被定义为线性映射——只有线性映射才能让极限在原点处的信息唯一确定整个映射。

3. 可微蕴含连续。 与一维情形一样，可微性是比连续性更强的性质。

定理 2.1.3（可微必连续）

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，则 $f$ 在 $\boldsymbol{a}$ 处连续。

证明

由可微性定义，存在 $Df(\boldsymbol{a}) \in L(\mathbb{R}^n, \mathbb{R}^m)$ 使得

\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0.

令 $\varepsilon(\boldsymbol{h}) = \frac{\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}$（当 $\boldsymbol{h} \neq \boldsymbol{0}$ 时；$\varepsilon(\boldsymbol{0}) = 0$），则 $\lim_{\boldsymbol{h} \to \boldsymbol{0}} \varepsilon(\boldsymbol{h}) = 0$。由三角不等式和算子范数的不等式 $\|Df(\boldsymbol{a})(\boldsymbol{h})\| \le \|Df(\boldsymbol{a})\| \|\boldsymbol{h}\|$（§1.2.4），

\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a})\| = \|Df(\boldsymbol{a})(\boldsymbol{h}) + (f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h}))\| \le \|Df(\boldsymbol{a})\| \|\boldsymbol{h}\| + \varepsilon(\boldsymbol{h})\|\boldsymbol{h}\|.

当 $\boldsymbol{h} \to \boldsymbol{0}$ 时，$\|\boldsymbol{h}\| \to 0$，$\varepsilon(\boldsymbol{h}) \to 0$，因此整个右边趋于 $0$。故 $f(\boldsymbol{a} + \boldsymbol{h}) \to f(\boldsymbol{a})$，即 $f$ 在 $\boldsymbol{a}$ 处连续。 ∎

旁白：算子范数的再次登场

证明中 $\|Df(\boldsymbol{a})(\boldsymbol{h})\| \le \|Df(\boldsymbol{a})\| \|\boldsymbol{h}\|$ 是关键的估计式。正是 §1.2.4 中引入的算子范数，使我们可以将线性映射"输出"的大小与"输入"的大小直接比较。这种估计方式将在整个第 2 章反复使用。

2.1.3 导数的矩阵——雅可比矩阵

导数 $Df(\boldsymbol{a})$ 是一个线性映射。由 §1.2.2 的核心事实，这个线性映射在标准基下对应一个矩阵。这个矩阵的元由什么决定？

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 的分量函数为 $f^1, \dots, f^m$（即 $f(\boldsymbol{x}) = (f^1(\boldsymbol{x}), \dots, f^m(\boldsymbol{x}))$）。如果 $f$ 在 $\boldsymbol{a}$ 处可微，那么通过将定义 2.1.1 中的 $\boldsymbol{h}$ 取为沿坐标轴方向的 $t\boldsymbol{e}_j$，并令 $t \to 0$，可以推出每个偏导数 $\frac{\partial f^i}{\partial x^j}(\boldsymbol{a})$ 的存在性，以及它们在矩阵中的位置。

定义 2.1.4（雅可比矩阵）

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微。$Df(\boldsymbol{a})$ 在 $\mathbb{R}^n$ 和 $\mathbb{R}^m$ 的标准基下的矩阵称为 $f$ 在 $\boldsymbol{a}$ 处的雅可比矩阵，记作 $f'(\boldsymbol{a})$。它是一个 $m \times n$ 矩阵，其第 $i$ 行第 $j$ 列的元素是偏导数 $D_j f^i(\boldsymbol{a}) = \frac{\partial f^i}{\partial x^j}(\boldsymbol{a})$：

f'(\boldsymbol{a}) = \begin{pmatrix} D_1 f^1(\boldsymbol{a}) & D_2 f^1(\boldsymbol{a}) & \cdots & D_n f^1(\boldsymbol{a}) \\ D_1 f^2(\boldsymbol{a}) & D_2 f^2(\boldsymbol{a}) & \cdots & D_n f^2(\boldsymbol{a}) \\ \vdots & \vdots & \ddots & \vdots \\ D_1 f^m(\boldsymbol{a}) & D_2 f^m(\boldsymbol{a}) & \cdots & D_n f^m(\boldsymbol{a}) \end{pmatrix}.

旁白：为什么要强调"标准基"？

一个线性映射在不同基下的矩阵表示是不同的。雅可比矩阵特指在标准基下的表示——这是在欧氏空间中计算时最自然的选择。如果我们在 $\mathbb{R}^n$ 和 $\mathbb{R}^m$ 中选取其他基，同一个导数 $Df(\boldsymbol{a})$ 对应的矩阵就会不同。好在本书的绝大多数计算都在标准基下进行，因此读者可以将"雅可比矩阵"与"导数的矩阵表示"等同理解。在第 5 章讨论流形上的微积分时，我们会看到在一般坐标卡下，雅可比矩阵被坐标表示下的偏导数矩阵所替代，但它的本质——它是一个线性映射的局部坐标表示——保持不变。

旁白：注意列的几何意义

由 §1.2.2 的核心事实，雅可比矩阵的第 $j$ 列就是 $Df(\boldsymbol{a})(\boldsymbol{e}_j)$。它是 $f$ 沿第 $j$ 个坐标轴方向的变化率向量——即所有分量函数关于 $x^j$ 的偏导数构成的列向量。

定理 2.1.5（可微性蕴含偏导数存在）

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，则对所有 $i, j$，偏导数 $D_j f^i(\boldsymbol{a})$ 存在，且 $Df(\boldsymbol{a})$ 在标准基下的矩阵表示即为雅可比矩阵 $f'(\boldsymbol{a})$。

证明

取 $\boldsymbol{h} = t\boldsymbol{e}_j$（其中 $\boldsymbol{e}_j$ 是第 $j$ 个标准基向量）。由可微性定义，

\lim_{t \to 0} \frac{\|f(\boldsymbol{a} + t\boldsymbol{e}_j) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(t\boldsymbol{e}_j)\|}{\|t\boldsymbol{e}_j\|} = 0.

因为 $\boldsymbol{e}_j$ 是标准基向量，$\|\boldsymbol{e}_j\| = 1$，所以 $\|t\boldsymbol{e}_j\| = |t|$。分母简化为 $|t|$。

考察第 $i$ 个分量，并利用 $Df(\boldsymbol{a})$ 的线性性 $Df(\boldsymbol{a})(t\boldsymbol{e}_j) = t Df(\boldsymbol{a})(\boldsymbol{e}_j)$，可得

\lim_{t \to 0} \left| \frac{f^i(\boldsymbol{a} + t\boldsymbol{e}_j) - f^i(\boldsymbol{a})}{t} - [Df(\boldsymbol{a})(\boldsymbol{e}_j)]^i \right| = 0.

这表明 $\lim_{t \to 0} \frac{f^i(\boldsymbol{a} + t\boldsymbol{e}_j) - f^i(\boldsymbol{a})}{t}$ 存在且等于 $[Df(\boldsymbol{a})(\boldsymbol{e}_j)]^i$，即 $Df(\boldsymbol{a})$ 对应矩阵的第 $i$ 行第 $j$ 列元素。这正是 $D_j f^i(\boldsymbol{a})$。 ∎

旁白：可微强于偏导数存在

定理 2.1.5 的逆命题不成立：一个函数的所有偏导数都存在，不足以推出该函数可微（参见 §2.3 的反例和定理 2.8——偏导数连续才能保证可微性）。可微性不仅要求沿每个坐标轴方向的变化率存在，还要求这些变化率作为一个整体，能以线性映射的方式一致地逼近函数在所有方向上的变化。仅凭偏导数的存在性无法保证这一点。

旁白：两个推论的逻辑关系

定理 2.1.3（可微蕴含连续）和定理 2.1.5（可微蕴含偏导数存在）都是可微性的直接推论，但两者互不蕴含。一个函数可以偏导数都存在但不连续（从而不可微），例如

f(x,y) = \begin{cases} \dfrac{xy}{x^2 + y^2}, & (x,y) \neq (0,0), \\ 0, & (x,y) = (0,0), \end{cases}

在 $(0,0)$ 处的偏导数均为 0，但沿不同路径逼近原点时函数值趋近于不同极限，故不连续。反之，一个函数可以连续但偏导数不存在，例如 $f(x,y) = |x|$ 在原点对 $x$ 的偏导数不存在。可微性同时蕴含连续性和偏导数存在性，但它比这两者单独或同时成立都要强。

2.1.4 方向导数

偏导数刻画了沿坐标轴方向的变化率。更一般地，我们可以考虑沿任意方向的变化率。

定义 2.1.6（方向导数）

设 $f: \mathbb{R}^n \to \mathbb{R}^m$，$\boldsymbol{a} \in \mathbb{R}^n$，$\boldsymbol{v} \in \mathbb{R}^n$ 是一个非零向量。$f$ 在 $\boldsymbol{a}$ 处沿方向 $\boldsymbol{v}$ 的方向导数定义为

D_{\boldsymbol{v}} f(\boldsymbol{a}) = \lim_{t \to 0} \frac{f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a})}{t},

如果该极限存在。

偏导数 $D_j f^i(\boldsymbol{a})$ 正是方向导数取 $\boldsymbol{v} = \boldsymbol{e}_j$ 时的特例。

定理 2.1.7（可微蕴含方向导数存在）

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，则对任意 $\boldsymbol{v} \in \mathbb{R}^n$，方向导数 $D_{\boldsymbol{v}} f(\boldsymbol{a})$ 存在，且

D_{\boldsymbol{v}} f(\boldsymbol{a}) = Df(\boldsymbol{a})(\boldsymbol{v}).

证明

取 $\boldsymbol{h} = t\boldsymbol{v}$。由可微性定义，

0 = \lim_{t \to 0} \frac{\|f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(t\boldsymbol{v})\|}{\|t\boldsymbol{v}\|} = \frac{1}{\|\boldsymbol{v}\|} \lim_{t \to 0} \frac{\|f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a}) - t Df(\boldsymbol{a})(\boldsymbol{v})\|}{|t|}.

由此可知 $\lim_{t \to 0} \frac{f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a}) - t Df(\boldsymbol{a})(\boldsymbol{v})}{t} = \boldsymbol{0}$，即

\lim_{t \to 0} \frac{f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a})}{t} = Df(\boldsymbol{a})(\boldsymbol{v}),

这正是所求证。 ∎

定理 2.1.7 有一个重要的几何解释：一旦知道导数 $Df(\boldsymbol{a})$ 这个线性映射，所有方向的方向导数都可以通过将 $\boldsymbol{v}$ 代入这个线性映射直接得到。在一维情形，这对应于"$f'(a)$ 乘以方向"即为方向导数。在高维中，$Df(\boldsymbol{a})$ 统一地编码了函数在各个方向上的变化信息。

旁白：方向导数存在不能推出可微

即使 $f$ 在 $\boldsymbol{a}$ 处所有方向的方向导数都存在，也不足以保证 $f$ 在 $\boldsymbol{a}$ 处可微。一个经典的反例是

f(x,y) = \begin{cases} \dfrac{x^2 y}{x^4 + y^2}, & (x,y) \neq (0,0), \\ 0, & (x,y) = (0,0). \end{cases}

该函数在 $(0,0)$ 处沿所有方向的方向导数都存在，且均为 0，但它在 $(0,0)$ 处不可微，甚至不连续（限制在曲线 $y = x^2$ 上时，函数值恒为 $1/2$，并不趋于 0）。可微性要求的变化率一致性比单纯的方向导数存在要强得多。

2.1.5 计算导数的例子

在具体计算中，我们可以先求出偏导数构成雅可比矩阵，然后验证这个候选线性映射是否满足可微性定义。

例 2.1.8（常值函数与线性函数）

若 $f(\boldsymbol{x}) = \boldsymbol{c}$（常数），则 $f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = \boldsymbol{0}$。取 $T = 0$（零线性映射）满足定义，故 $Df(\boldsymbol{a}) = 0$。
若 $f$ 本身是线性映射，则 $f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = f(\boldsymbol{h})$（由线性性）。取 $T = f$，误差恒为零，故 $Df(\boldsymbol{a}) = f$。

旁白：线性映射的导数是自身

这是导数为线性映射这一观点的自然推论。线性映射本身就是自己的最佳线性近似——它已经是线性的，所以不需要任何修正。

例 2.1.9

设 $f: \mathbb{R}^2 \to \mathbb{R}$，$f(x,y) = x^2 + y^2$。计算在任意点 $(a,b)$ 处的导数。

首先计算偏导数：

D_1 f(a,b) = 2a, \qquad D_2 f(a,b) = 2b.

雅可比矩阵为 $f'(a,b) = (2a, 2b)$。因此，候选的导数是线性映射 $T(h,k) = 2a h + 2b k$。现在验证它满足可微性定义：

\frac{|f(a+h, b+k) - f(a,b) - T(h,k)|}{\|(h,k)\|} = \frac{|(a+h)^2 + (b+k)^2 - a^2 - b^2 - 2ah - 2bk|}{\sqrt{h^2 + k^2}} = \frac{h^2 + k^2}{\sqrt{h^2 + k^2}} = \sqrt{h^2 + k^2} \to 0.

因此 $f$ 在 $(a,b)$ 处可微，且 $Df(a,b)(h,k) = 2a h + 2b k$。

例 2.1.10

设 $f: \mathbb{R}^2 \to \mathbb{R}^2$，$f(x,y) = (x^2 - y, xy)$。在任意点 $(a,b)$ 处，

f'(a,b) = \begin{pmatrix} 2a & -1 \\ b & a \end{pmatrix}.

候选导数是线性映射 $T(h,k) = (2a h - k, b h + a k)$。验证：

\frac{\|f(a+h, b+k) - f(a,b) - T(h,k)\|}{\|(h,k)\|} = \frac{\|(h^2, hk)\|}{\sqrt{h^2 + k^2}} = \frac{\sqrt{h^4 + h^2 k^2}}{\sqrt{h^2 + k^2}} = \frac{|h|\sqrt{h^2 + k^2}}{\sqrt{h^2 + k^2}} = |h| \to 0.

因此 $f$ 在 $(a,b)$ 处可微，导数由雅可比矩阵给出。

2.1.6 与初等微积分的衔接——一个统一的视角

回顾一元微积分的基本定理：如果 $f: \mathbb{R} \to \mathbb{R}$ 可微，则 $f$ 在 $a$ 附近可以近似为

f(a+h) \approx f(a) + f'(a) h.

我们刚刚把这个公式推广为：如果 $f: \mathbb{R}^n \to \mathbb{R}^m$ 可微，则

f(\boldsymbol{a}+\boldsymbol{h}) \approx f(\boldsymbol{a}) + Df(\boldsymbol{a})(\boldsymbol{h}).

两者的形式完全一致。区别仅在于：

在 $\mathbb{R}^1$ 中，"乘以 $f'(a)$"这一线性运算用一个数来表示；
在 $\mathbb{R}^n$ 中，"$Df(\boldsymbol{a})$ 作用于 $\boldsymbol{h}$"这一线性运算用一个矩阵（雅可比矩阵）来表示。

本节对一元导数定义的改写、导数唯一性的证明、可微蕴含方向导数存在等论证中，有一个反复出现的技巧：取 $\boldsymbol{h} = t\boldsymbol{v}$，令 $t \to 0$，利用线性映射的齐次性将关于极限的信息"传递"到整个空间。这不仅是本章的核心技术，也是"导数作为线性映射"这一观点的深层体现——只有线性映射才具有这种齐次性，使得原点附近的局部信息足以确定整个映射。

旁白：一个贯穿全书的观点

微分学的核心是"局部线性化"。无论函数定义在什么空间上（直线、平面、欧氏空间、甚至流形），在足够小的尺度上，光滑函数都可以用线性映射来近似。链式法则、反函数定理、隐函数定理——所有这些经典结果，都是"局部线性化"这一核心思想的不同表现形式。我们将在接下来的章节中逐一展开。

练习 2.1

【计算验证型】

设 $f: \mathbb{R}^2 \to \mathbb{R}$，$f(x,y) = x^3 + 3xy^2$。求 $f$ 在任意点 $(a,b)$ 处的导数 $Df(a,b)$（作为线性映射），并写出其雅可比矩阵。
设 $f: \mathbb{R}^3 \to \mathbb{R}^2$，$f(x,y,z) = (x^2 + yz, e^{x+y})$。写出雅可比矩阵 $f'(x,y,z)$。
设 $f: \mathbb{R}^2 \to \mathbb{R}^2$ 定义为 $f(x,y) = (x^2 - y^2, 2xy)$（将 $\mathbb{R}^2$ 视为复平面 $\mathbb{C}$，这就是 $z \mapsto z^2$ 的实形式）。计算 $f'(x,y)$，并验证 $\det f'(x,y) = 4(x^2 + y^2) \neq 0$ 对所有 $(x,y) \neq (0,0)$ 成立。这说明了什么几何事实？
直接用定义 2.1.1 验证以下函数在 $\boldsymbol{a} = \boldsymbol{0}$ 处的可微性，并求 $Df(\boldsymbol{0})$：
- (a) $f(x,y) = x \sin y$
- (b) $f(x,y) = \sqrt{|xy|}$（注意：该函数在原点不可微——请找出候选矩阵并验证极限不满足。）
设 $f: \mathbb{R}^2 \to \mathbb{R}$ 定义为
$$f(x,y) = \begin{cases} \dfrac{x^3}{x^2 + y^2}, & (x,y) \neq (0,0), \\ 0, & (x,y) = (0,0). \end{cases}$$
- (a) 计算 $f$ 在 $(0,0)$ 处的偏导数 $D_1 f(0,0)$ 和 $D_2 f(0,0)$。
- (b) $f$ 在 $(0,0)$ 处是否可微？若可微，写出 $Df(0,0)$；若不可微，说明理由。

【概念辨析型】

判断下列命题的真伪，并给出理由或反例：
- (a) 若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处所有偏导数存在，则 $f$ 在 $\boldsymbol{a}$ 处可微。
- (b) 若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，则其所有方向导数存在。
- (c) 若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处所有方向导数存在，则 $f$ 在 $\boldsymbol{a}$ 处可微。
- (d) 如果 $f: \mathbb{R}^n \to \mathbb{R}^m$ 是线性映射，那么它的导数等于它自身（即 $Df(\boldsymbol{a}) = f$ 对任意 $\boldsymbol{a}$ 成立）。
定理 2.1.2（唯一性）的证明中，我们用到了 $T_1, T_2$ 的齐次性。如果 $T_1, T_2$ 不是线性的，而是任意满足极限条件的映射，唯一性还成立吗？由此体会"导数被定义为线性映射"这一要求的必要性。
设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微，且 $Df(\boldsymbol{a})$ 是零映射。证明：对任意方向 $\boldsymbol{v}$，方向导数 $D_{\boldsymbol{v}} f(\boldsymbol{a}) = \boldsymbol{0}$。这个结论的几何意义是什么？

上一节 1.4 概念翻译器下一节 2.2 链式法则