第2章 · 多元函数的导数

2.1 导数作为最佳线性近似

在初等微积分中,一元函数 $f: \mathbb{R} \to \mathbb{R}$ 在点 $a$ 处的导数定义为极限

$$f'(a) = \lim_{h \to 0} \frac{f(a+h) - f(a)}{h},$$

如果该极限存在。这个数 $f'(a)$ 携带了几何信息——它是曲线 $y = f(x)$ 在点 $(a, f(a))$ 处切线的斜率——同时也是函数在 $a$ 附近局部行为的刻画:当 $h$ 很小时,

$$f(a+h) \approx f(a) + f'(a) \cdot h.$$

本节将这个定义推广到多元映射 $f: \mathbb{R}^n \to \mathbb{R}^m$。推广的核心思想是:导数不应再被视为一个数,而应被视为一个线性映射

2.1.1 一维情形的重新审视

在进入高维定义之前,我们先重新解读一元函数的导数。设 $f: \mathbb{R} \to \mathbb{R}$ 在 $a$ 处可微,导数为 $f'(a)$。考虑映射

$$\lambda(h) = f'(a) \cdot h.$$

这个 $\lambda: \mathbb{R} \to \mathbb{R}$ 是一个线性映射(§1.2):它将输入的变化量 $h$ 映射为输出的变化量 $f'(a)h$,满足 $\lambda(h_1 + h_2) = \lambda(h_1) + \lambda(h_2)$ 和 $\lambda(c h) = c\lambda(h)$。

用这个线性映射,导数定义中的极限

$$\lim_{h \to 0} \frac{f(a+h) - f(a)}{h} = f'(a)$$

可以等价地改写为

$$\lim_{h \to 0} \frac{|f(a+h) - f(a) - \lambda(h)|}{|h|} = 0.$$

这一写法将"导数"从"差商的极限"转变为一个关于线性映射的陈述:存在一个线性映射 $\lambda$,使得用 $\lambda(h)$ 去逼近差值 $f(a+h) - f(a)$ 时,误差 $f(a+h) - f(a) - \lambda(h)$ 不仅是无穷小,而且比 $h$ 更快地趋于零。换句话说,$\lambda(h) = f'(a)h$ 是 $f(a+h) - f(a)$ 的最佳线性近似

旁白:为什么要改写?

在一维情形中,$f'(a)$ 本身是一个数,它与线性映射 $h \mapsto f'(a)h$ 之间可以一一对应。但在高维中,我们无法用一个数来刻画所有方向的变化率——必须用一个线性映射(矩阵)来同时编码所有方向的信息。改写后的形式不再依赖"除以 $h$"的操作(在高维中,除以一个向量没有意义),而是依赖范数的比较,因此可以自然地推广到 $\mathbb{R}^n$ 和 $\mathbb{R}^m$。

2.1.2 多元函数可微性的定义

设 $f: \mathbb{R}^n \to \mathbb{R}^m$,$\boldsymbol{a} \in \mathbb{R}^n$。我们希望将 $f$ 在 $\boldsymbol{a}$ 处的导数定义为一个线性映射 $T: \mathbb{R}^n \to \mathbb{R}^m$,它满足

$$f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) \approx T(\boldsymbol{h}),$$

且当 $\boldsymbol{h} \to \boldsymbol{0}$ 时,误差比 $\|\boldsymbol{h}\|$ 更快地趋于零。

定义 2.1.1(可微性与导数)

映射 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在点 $\boldsymbol{a} \in \mathbb{R}^n$ 处可微,如果存在一个线性映射 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$,使得

$$\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - T(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0.$$

如果这样的 $T$ 存在,则称 $T$ 为 $f$ 在 $\boldsymbol{a}$ 处的导数,记作 $Df(\boldsymbol{a})$。

旁白:类型标注

$f: \mathbb{R}^n \to \mathbb{R}^m$ 是映射,$\boldsymbol{a} \in \mathbb{R}^n$ 是点,$\boldsymbol{h} \in \mathbb{R}^n$ 是(微小的)变化向量。

$Df(\boldsymbol{a}) \in L(\mathbb{R}^n, \mathbb{R}^m)$ 是一个线性映射。

$f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a})$ 是输出的实际变化量($\mathbb{R}^m$ 中的向量)。

$Df(\boldsymbol{a})(\boldsymbol{h})$ 是用导数线性近似预测的变化量(也是 $\mathbb{R}^m$ 中的向量)。

这个定义有几个要点值得逐一说明。

1. 极限的含义。 式子中的极限 $\boldsymbol{h} \to \boldsymbol{0}$ 是在 $\mathbb{R}^n$ 中取的——即 $\boldsymbol{h} = (h^1, \dots, h^n)$ 的所有分量同时趋于零。分子是 $\mathbb{R}^m$ 中的范数,分母是 $\mathbb{R}^n$ 中的范数(两者都是正实数),它们的比值是一个非负实数。极限为零意味着当 $\boldsymbol{h}$ 足够接近 $\boldsymbol{0}$ 时,误差的范数可以任意小于 $\|\boldsymbol{h}\|$ 的某个倍数。换言之,误差是 $\|\boldsymbol{h}\|$ 的高阶无穷小:$f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h}) = o(\|\boldsymbol{h}\|)$。

2. 唯一性。 定义中的线性映射 $T$ 如果存在,则必唯一。这是一个关键性质,确保了我们可以说"导数"而不引起歧义。

定理 2.1.2(导数的唯一性)

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微,则导数 $Df(\boldsymbol{a})$ 是唯一的。

证明

设 $T_1, T_2 \in L(\mathbb{R}^n, \mathbb{R}^m)$ 都满足定义 2.1.1 的条件。我们要证对任意 $\boldsymbol{v} \in \mathbb{R}^n$,有 $T_1(\boldsymbol{v}) = T_2(\boldsymbol{v})$。

由两个极限条件相减(利用三角不等式),对任意 $\boldsymbol{h} \in \mathbb{R}^n$,有

$$\frac{\|T_1(\boldsymbol{h}) - T_2(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} \le \frac{\|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T_1(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} + \frac{\|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T_2(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}.$$

令 $\boldsymbol{h} \to \boldsymbol{0}$。根据可微性定义,右边两项都趋于 $0$。因此左边也趋于 $0$:

$$\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|T_1(\boldsymbol{h}) - T_2(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0. \tag{*}$$

现在,对任意固定的 $\boldsymbol{v} \in \mathbb{R}^n$(若 $\boldsymbol{v} = \boldsymbol{0}$,$T_1(\boldsymbol{0}) = \boldsymbol{0} = T_2(\boldsymbol{0})$ 自动成立),考虑 $\boldsymbol{h} = t\boldsymbol{v}$,其中 $t \in \mathbb{R}$ 是标量参数。当 $t \to 0$ 时,$t\boldsymbol{v} \to \boldsymbol{0}$,由 $(*)$ 得

$$\lim_{t \to 0} \frac{\|T_1(t\boldsymbol{v}) - T_2(t\boldsymbol{v})\|}{\|t\boldsymbol{v}\|} = 0.$$

由于 $T_1, T_2$ 是线性映射,$T_1(t\boldsymbol{v}) = t T_1(\boldsymbol{v})$,$T_2(t\boldsymbol{v}) = t T_2(\boldsymbol{v})$;又由范数的齐次性,$\|t\boldsymbol{v}\| = |t| \|\boldsymbol{v}\|$。代入上式,得

$$\frac{\|t(T_1 - T_2)(\boldsymbol{v})\|}{|t| \|\boldsymbol{v}\|} = \frac{\|(T_1 - T_2)(\boldsymbol{v})\|}{\|\boldsymbol{v}\|}.$$

注意,左边化简后的表达式与 $t$ 无关!它是一个常数。

因此,

$$0 = \lim_{t \to 0} \frac{\|T_1(t\boldsymbol{v}) - T_2(t\boldsymbol{v})\|}{\|t\boldsymbol{v}\|} = \frac{\|(T_1 - T_2)(\boldsymbol{v})\|}{\|\boldsymbol{v}\|}.$$

由此推出 $\|(T_1 - T_2)(\boldsymbol{v})\| = 0$,即 $T_1(\boldsymbol{v}) = T_2(\boldsymbol{v})$。由 $\boldsymbol{v}$ 的任意性,$T_1 = T_2$。

旁白:为什么不能直接从 $(*)$ 推出 $T_1 = T_2$?

考虑一元函数 $g(h)$ 满足 $\lim_{h \to 0} g(h) = 0$。如果 $h = 3$ 是固定的,我们能说 $g(3)$ 等于多少吗?不能。极限只告诉我们当 $h$ 很小时 $g(h)$ 接近 $0$,但 $h = 3$ 时的值完全可以是任何数。同样的逻辑:$(*)$ 保证了分式在 $\boldsymbol{h} \to \boldsymbol{0}$ 时趋于零,但没有对任何一个固定的 $\boldsymbol{h} \neq \boldsymbol{0}$ 做出任何承诺。因此,直接从 $(*)$ 跳到"对任意 $\boldsymbol{v}$,分式为零"是不合法的。

旁白:引入参数 $t$ 的深层理由

这个证明揭示了线性映射在可微性理论中的一个本质角色:线性映射的齐次性使得 $\frac{\|T(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}$ 沿每条射线都是常数。因此,关于 $\boldsymbol{h} \to \boldsymbol{0}$ 的极限信息可以通过射线"传递"到整个空间中的任意向量上。如果 $T_1, T_2$ 不是线性的,这个传递机制就不复存在,唯一性也不再保证。这正是为什么导数必须被定义为线性映射——只有线性映射才能让极限在原点处的信息唯一确定整个映射。

3. 可微蕴含连续。 与一维情形一样,可微性是比连续性更强的性质。

定理 2.1.3(可微必连续)

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微,则 $f$ 在 $\boldsymbol{a}$ 处连续。

证明

由可微性定义,存在 $Df(\boldsymbol{a}) \in L(\mathbb{R}^n, \mathbb{R}^m)$ 使得

$$\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0.$$

令 $\varepsilon(\boldsymbol{h}) = \frac{\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h})\|}{\|\boldsymbol{h}\|}$(当 $\boldsymbol{h} \neq \boldsymbol{0}$ 时;$\varepsilon(\boldsymbol{0}) = 0$),则 $\lim_{\boldsymbol{h} \to \boldsymbol{0}} \varepsilon(\boldsymbol{h}) = 0$。由三角不等式和算子范数的不等式 $\|Df(\boldsymbol{a})(\boldsymbol{h})\| \le \|Df(\boldsymbol{a})\| \|\boldsymbol{h}\|$(§1.2.4),

$$\|f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a})\| = \|Df(\boldsymbol{a})(\boldsymbol{h}) + (f(\boldsymbol{a} + \boldsymbol{h}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(\boldsymbol{h}))\| \le \|Df(\boldsymbol{a})\| \|\boldsymbol{h}\| + \varepsilon(\boldsymbol{h})\|\boldsymbol{h}\|.$$

当 $\boldsymbol{h} \to \boldsymbol{0}$ 时,$\|\boldsymbol{h}\| \to 0$,$\varepsilon(\boldsymbol{h}) \to 0$,因此整个右边趋于 $0$。故 $f(\boldsymbol{a} + \boldsymbol{h}) \to f(\boldsymbol{a})$,即 $f$ 在 $\boldsymbol{a}$ 处连续。

旁白:算子范数的再次登场

证明中 $\|Df(\boldsymbol{a})(\boldsymbol{h})\| \le \|Df(\boldsymbol{a})\| \|\boldsymbol{h}\|$ 是关键的估计式。正是 §1.2.4 中引入的算子范数,使我们可以将线性映射"输出"的大小与"输入"的大小直接比较。这种估计方式将在整个第 2 章反复使用。

2.1.3 导数的矩阵——雅可比矩阵

导数 $Df(\boldsymbol{a})$ 是一个线性映射。由 §1.2.2 的核心事实,这个线性映射在标准基下对应一个矩阵。这个矩阵的元由什么决定?

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 的分量函数为 $f^1, \dots, f^m$(即 $f(\boldsymbol{x}) = (f^1(\boldsymbol{x}), \dots, f^m(\boldsymbol{x}))$)。如果 $f$ 在 $\boldsymbol{a}$ 处可微,那么通过将定义 2.1.1 中的 $\boldsymbol{h}$ 取为沿坐标轴方向的 $t\boldsymbol{e}_j$,并令 $t \to 0$,可以推出每个偏导数 $\frac{\partial f^i}{\partial x^j}(\boldsymbol{a})$ 的存在性,以及它们在矩阵中的位置。

定义 2.1.4(雅可比矩阵)

设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微。$Df(\boldsymbol{a})$ 在 $\mathbb{R}^n$ 和 $\mathbb{R}^m$ 的标准基下的矩阵称为 $f$ 在 $\boldsymbol{a}$ 处的雅可比矩阵,记作 $f'(\boldsymbol{a})$。它是一个 $m \times n$ 矩阵,其第 $i$ 行第 $j$ 列的元素是偏导数 $D_j f^i(\boldsymbol{a}) = \frac{\partial f^i}{\partial x^j}(\boldsymbol{a})$:

$$f'(\boldsymbol{a}) = \begin{pmatrix} D_1 f^1(\boldsymbol{a}) & D_2 f^1(\boldsymbol{a}) & \cdots & D_n f^1(\boldsymbol{a}) \\ D_1 f^2(\boldsymbol{a}) & D_2 f^2(\boldsymbol{a}) & \cdots & D_n f^2(\boldsymbol{a}) \\ \vdots & \vdots & \ddots & \vdots \\ D_1 f^m(\boldsymbol{a}) & D_2 f^m(\boldsymbol{a}) & \cdots & D_n f^m(\boldsymbol{a}) \end{pmatrix}.$$
旁白:为什么要强调"标准基"?

一个线性映射在不同基下的矩阵表示是不同的。雅可比矩阵特指在标准基下的表示——这是在欧氏空间中计算时最自然的选择。如果我们在 $\mathbb{R}^n$ 和 $\mathbb{R}^m$ 中选取其他基,同一个导数 $Df(\boldsymbol{a})$ 对应的矩阵就会不同。好在本书的绝大多数计算都在标准基下进行,因此读者可以将"雅可比矩阵"与"导数的矩阵表示"等同理解。在第 5 章讨论流形上的微积分时,我们会看到在一般坐标卡下,雅可比矩阵被坐标表示下的偏导数矩阵所替代,但它的本质——它是一个线性映射的局部坐标表示——保持不变。

旁白:注意列的几何意义

由 §1.2.2 的核心事实,雅可比矩阵的第 $j$ 列就是 $Df(\boldsymbol{a})(\boldsymbol{e}_j)$。它是 $f$ 沿第 $j$ 个坐标轴方向的变化率向量——即所有分量函数关于 $x^j$ 的偏导数构成的列向量。

定理 2.1.5(可微性蕴含偏导数存在)

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微,则对所有 $i, j$,偏导数 $D_j f^i(\boldsymbol{a})$ 存在,且 $Df(\boldsymbol{a})$ 在标准基下的矩阵表示即为雅可比矩阵 $f'(\boldsymbol{a})$。

证明

取 $\boldsymbol{h} = t\boldsymbol{e}_j$(其中 $\boldsymbol{e}_j$ 是第 $j$ 个标准基向量)。由可微性定义,

$$\lim_{t \to 0} \frac{\|f(\boldsymbol{a} + t\boldsymbol{e}_j) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(t\boldsymbol{e}_j)\|}{\|t\boldsymbol{e}_j\|} = 0.$$

因为 $\boldsymbol{e}_j$ 是标准基向量,$\|\boldsymbol{e}_j\| = 1$,所以 $\|t\boldsymbol{e}_j\| = |t|$。分母简化为 $|t|$。

考察第 $i$ 个分量,并利用 $Df(\boldsymbol{a})$ 的线性性 $Df(\boldsymbol{a})(t\boldsymbol{e}_j) = t Df(\boldsymbol{a})(\boldsymbol{e}_j)$,可得

$$\lim_{t \to 0} \left| \frac{f^i(\boldsymbol{a} + t\boldsymbol{e}_j) - f^i(\boldsymbol{a})}{t} - [Df(\boldsymbol{a})(\boldsymbol{e}_j)]^i \right| = 0.$$

这表明 $\lim_{t \to 0} \frac{f^i(\boldsymbol{a} + t\boldsymbol{e}_j) - f^i(\boldsymbol{a})}{t}$ 存在且等于 $[Df(\boldsymbol{a})(\boldsymbol{e}_j)]^i$,即 $Df(\boldsymbol{a})$ 对应矩阵的第 $i$ 行第 $j$ 列元素。这正是 $D_j f^i(\boldsymbol{a})$。

旁白:可微强于偏导数存在

定理 2.1.5 的逆命题不成立:一个函数的所有偏导数都存在,不足以推出该函数可微(参见 §2.3 的反例和定理 2.8——偏导数连续才能保证可微性)。可微性不仅要求沿每个坐标轴方向的变化率存在,还要求这些变化率作为一个整体,能以线性映射的方式一致地逼近函数在所有方向上的变化。仅凭偏导数的存在性无法保证这一点。

旁白:两个推论的逻辑关系

定理 2.1.3(可微蕴含连续)和定理 2.1.5(可微蕴含偏导数存在)都是可微性的直接推论,但两者互不蕴含。一个函数可以偏导数都存在但不连续(从而不可微),例如

$$f(x,y) = \begin{cases} \dfrac{xy}{x^2 + y^2}, & (x,y) \neq (0,0), \\ 0, & (x,y) = (0,0), \end{cases}$$

在 $(0,0)$ 处的偏导数均为 0,但沿不同路径逼近原点时函数值趋近于不同极限,故不连续。反之,一个函数可以连续但偏导数不存在,例如 $f(x,y) = |x|$ 在原点对 $x$ 的偏导数不存在。可微性同时蕴含连续性和偏导数存在性,但它比这两者单独或同时成立都要强。

2.1.4 方向导数

偏导数刻画了沿坐标轴方向的变化率。更一般地,我们可以考虑沿任意方向的变化率。

定义 2.1.6(方向导数)

设 $f: \mathbb{R}^n \to \mathbb{R}^m$,$\boldsymbol{a} \in \mathbb{R}^n$,$\boldsymbol{v} \in \mathbb{R}^n$ 是一个非零向量。$f$ 在 $\boldsymbol{a}$ 处沿方向 $\boldsymbol{v}$ 的方向导数定义为

$$D_{\boldsymbol{v}} f(\boldsymbol{a}) = \lim_{t \to 0} \frac{f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a})}{t},$$

如果该极限存在。

偏导数 $D_j f^i(\boldsymbol{a})$ 正是方向导数取 $\boldsymbol{v} = \boldsymbol{e}_j$ 时的特例。

定理 2.1.7(可微蕴含方向导数存在)

若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微,则对任意 $\boldsymbol{v} \in \mathbb{R}^n$,方向导数 $D_{\boldsymbol{v}} f(\boldsymbol{a})$ 存在,且

$$D_{\boldsymbol{v}} f(\boldsymbol{a}) = Df(\boldsymbol{a})(\boldsymbol{v}).$$
证明

取 $\boldsymbol{h} = t\boldsymbol{v}$。由可微性定义,

$$0 = \lim_{t \to 0} \frac{\|f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a}) - Df(\boldsymbol{a})(t\boldsymbol{v})\|}{\|t\boldsymbol{v}\|} = \frac{1}{\|\boldsymbol{v}\|} \lim_{t \to 0} \frac{\|f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a}) - t Df(\boldsymbol{a})(\boldsymbol{v})\|}{|t|}.$$

由此可知 $\lim_{t \to 0} \frac{f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a}) - t Df(\boldsymbol{a})(\boldsymbol{v})}{t} = \boldsymbol{0}$,即

$$\lim_{t \to 0} \frac{f(\boldsymbol{a} + t\boldsymbol{v}) - f(\boldsymbol{a})}{t} = Df(\boldsymbol{a})(\boldsymbol{v}),$$

这正是所求证。

定理 2.1.7 有一个重要的几何解释:一旦知道导数 $Df(\boldsymbol{a})$ 这个线性映射,所有方向的方向导数都可以通过将 $\boldsymbol{v}$ 代入这个线性映射直接得到。在一维情形,这对应于"$f'(a)$ 乘以方向"即为方向导数。在高维中,$Df(\boldsymbol{a})$ 统一地编码了函数在各个方向上的变化信息。

旁白:方向导数存在不能推出可微

即使 $f$ 在 $\boldsymbol{a}$ 处所有方向的方向导数都存在,也不足以保证 $f$ 在 $\boldsymbol{a}$ 处可微。一个经典的反例是

$$f(x,y) = \begin{cases} \dfrac{x^2 y}{x^4 + y^2}, & (x,y) \neq (0,0), \\ 0, & (x,y) = (0,0). \end{cases}$$

该函数在 $(0,0)$ 处沿所有方向的方向导数都存在,且均为 0,但它在 $(0,0)$ 处不可微,甚至不连续(限制在曲线 $y = x^2$ 上时,函数值恒为 $1/2$,并不趋于 0)。可微性要求的变化率一致性比单纯的方向导数存在要强得多。

2.1.5 计算导数的例子

在具体计算中,我们可以先求出偏导数构成雅可比矩阵,然后验证这个候选线性映射是否满足可微性定义。

例 2.1.8(常值函数与线性函数)
  • 若 $f(\boldsymbol{x}) = \boldsymbol{c}$(常数),则 $f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = \boldsymbol{0}$。取 $T = 0$(零线性映射)满足定义,故 $Df(\boldsymbol{a}) = 0$。
  • 若 $f$ 本身是线性映射,则 $f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) = f(\boldsymbol{h})$(由线性性)。取 $T = f$,误差恒为零,故 $Df(\boldsymbol{a}) = f$。
旁白:线性映射的导数是自身

这是导数为线性映射这一观点的自然推论。线性映射本身就是自己的最佳线性近似——它已经是线性的,所以不需要任何修正。

例 2.1.9

设 $f: \mathbb{R}^2 \to \mathbb{R}$,$f(x,y) = x^2 + y^2$。计算在任意点 $(a,b)$ 处的导数。

首先计算偏导数:

$$D_1 f(a,b) = 2a, \qquad D_2 f(a,b) = 2b.$$

雅可比矩阵为 $f'(a,b) = (2a, 2b)$。因此,候选的导数是线性映射 $T(h,k) = 2a h + 2b k$。现在验证它满足可微性定义:

$$\frac{|f(a+h, b+k) - f(a,b) - T(h,k)|}{\|(h,k)\|} = \frac{|(a+h)^2 + (b+k)^2 - a^2 - b^2 - 2ah - 2bk|}{\sqrt{h^2 + k^2}} = \frac{h^2 + k^2}{\sqrt{h^2 + k^2}} = \sqrt{h^2 + k^2} \to 0.$$

因此 $f$ 在 $(a,b)$ 处可微,且 $Df(a,b)(h,k) = 2a h + 2b k$。

例 2.1.10

设 $f: \mathbb{R}^2 \to \mathbb{R}^2$,$f(x,y) = (x^2 - y, xy)$。在任意点 $(a,b)$ 处,

$$f'(a,b) = \begin{pmatrix} 2a & -1 \\ b & a \end{pmatrix}.$$

候选导数是线性映射 $T(h,k) = (2a h - k, b h + a k)$。验证:

$$\frac{\|f(a+h, b+k) - f(a,b) - T(h,k)\|}{\|(h,k)\|} = \frac{\|(h^2, hk)\|}{\sqrt{h^2 + k^2}} = \frac{\sqrt{h^4 + h^2 k^2}}{\sqrt{h^2 + k^2}} = \frac{|h|\sqrt{h^2 + k^2}}{\sqrt{h^2 + k^2}} = |h| \to 0.$$

因此 $f$ 在 $(a,b)$ 处可微,导数由雅可比矩阵给出。

2.1.6 与初等微积分的衔接——一个统一的视角

回顾一元微积分的基本定理:如果 $f: \mathbb{R} \to \mathbb{R}$ 可微,则 $f$ 在 $a$ 附近可以近似为

$$f(a+h) \approx f(a) + f'(a) h.$$

我们刚刚把这个公式推广为:如果 $f: \mathbb{R}^n \to \mathbb{R}^m$ 可微,则

$$f(\boldsymbol{a}+\boldsymbol{h}) \approx f(\boldsymbol{a}) + Df(\boldsymbol{a})(\boldsymbol{h}).$$

两者的形式完全一致。区别仅在于:

本节对一元导数定义的改写、导数唯一性的证明、可微蕴含方向导数存在等论证中,有一个反复出现的技巧:取 $\boldsymbol{h} = t\boldsymbol{v}$,令 $t \to 0$,利用线性映射的齐次性将关于极限的信息"传递"到整个空间。这不仅是本章的核心技术,也是"导数作为线性映射"这一观点的深层体现——只有线性映射才具有这种齐次性,使得原点附近的局部信息足以确定整个映射。

旁白:一个贯穿全书的观点

微分学的核心是"局部线性化"。无论函数定义在什么空间上(直线、平面、欧氏空间、甚至流形),在足够小的尺度上,光滑函数都可以用线性映射来近似。链式法则、反函数定理、隐函数定理——所有这些经典结果,都是"局部线性化"这一核心思想的不同表现形式。我们将在接下来的章节中逐一展开。

练习 2.1

【计算验证型】
  1. 设 $f: \mathbb{R}^2 \to \mathbb{R}$,$f(x,y) = x^3 + 3xy^2$。求 $f$ 在任意点 $(a,b)$ 处的导数 $Df(a,b)$(作为线性映射),并写出其雅可比矩阵。
  2. 设 $f: \mathbb{R}^3 \to \mathbb{R}^2$,$f(x,y,z) = (x^2 + yz, e^{x+y})$。写出雅可比矩阵 $f'(x,y,z)$。
  3. 设 $f: \mathbb{R}^2 \to \mathbb{R}^2$ 定义为 $f(x,y) = (x^2 - y^2, 2xy)$(将 $\mathbb{R}^2$ 视为复平面 $\mathbb{C}$,这就是 $z \mapsto z^2$ 的实形式)。计算 $f'(x,y)$,并验证 $\det f'(x,y) = 4(x^2 + y^2) \neq 0$ 对所有 $(x,y) \neq (0,0)$ 成立。这说明了什么几何事实?
  4. 直接用定义 2.1.1 验证以下函数在 $\boldsymbol{a} = \boldsymbol{0}$ 处的可微性,并求 $Df(\boldsymbol{0})$:
    • (a) $f(x,y) = x \sin y$
    • (b) $f(x,y) = \sqrt{|xy|}$(注意:该函数在原点不可微——请找出候选矩阵并验证极限不满足。)
  5. 设 $f: \mathbb{R}^2 \to \mathbb{R}$ 定义为
    $$f(x,y) = \begin{cases} \dfrac{x^3}{x^2 + y^2}, & (x,y) \neq (0,0), \\ 0, & (x,y) = (0,0). \end{cases}$$
    • (a) 计算 $f$ 在 $(0,0)$ 处的偏导数 $D_1 f(0,0)$ 和 $D_2 f(0,0)$。
    • (b) $f$ 在 $(0,0)$ 处是否可微?若可微,写出 $Df(0,0)$;若不可微,说明理由。
【概念辨析型】
  1. 判断下列命题的真伪,并给出理由或反例:
    • (a) 若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处所有偏导数存在,则 $f$ 在 $\boldsymbol{a}$ 处可微。
    • (b) 若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微,则其所有方向导数存在。
    • (c) 若 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处所有方向导数存在,则 $f$ 在 $\boldsymbol{a}$ 处可微。
    • (d) 如果 $f: \mathbb{R}^n \to \mathbb{R}^m$ 是线性映射,那么它的导数等于它自身(即 $Df(\boldsymbol{a}) = f$ 对任意 $\boldsymbol{a}$ 成立)。
  2. 定理 2.1.2(唯一性)的证明中,我们用到了 $T_1, T_2$ 的齐次性。如果 $T_1, T_2$ 不是线性的,而是任意满足极限条件的映射,唯一性还成立吗?由此体会"导数被定义为线性映射"这一要求的必要性。
  3. 设 $f: \mathbb{R}^n \to \mathbb{R}^m$ 在 $\boldsymbol{a}$ 处可微,且 $Df(\boldsymbol{a})$ 是零映射。证明:对任意方向 $\boldsymbol{v}$,方向导数 $D_{\boldsymbol{v}} f(\boldsymbol{a}) = \boldsymbol{0}$。这个结论的几何意义是什么?