第1章 · 欧氏空间与线性映射基础

1.2 线性映射

在 §1.1 中，我们把 $\mathbb{R}^n$ 建立为一个向量空间，配备了范数和内积。本节引入 $\mathbb{R}^n$ 之间最重要的函数——线性映射。它们不仅是线性代数的核心对象，更将在第2章中扮演导数的角色：一个可微函数在每一点的导数，正是一个线性映射。

1.2.1 线性映射的定义与例子

定义 1.2.1（线性映射）

设 $V, W$ 为向量空间。映射 $T: V \to W$ 称为线性的，如果它满足以下两个条件：

可加性：对任意 $\boldsymbol{v}_1, \boldsymbol{v}_2 \in V$，有 $T(\boldsymbol{v}_1 + \boldsymbol{v}_2) = T(\boldsymbol{v}_1) + T(\boldsymbol{v}_2)$。
齐次性：对任意 $\boldsymbol{v} \in V$ 和 $a \in \mathbb{R}$，有 $T(a\boldsymbol{v}) = a T(\boldsymbol{v})$。

当 $V = \mathbb{R}^n$，$W = \mathbb{R}^m$ 时，我们称 $T$ 为一个从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性映射。

旁白：类型标注

所有从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性映射构成的集合记为

L(\mathbb{R}^n, \mathbb{R}^m).

这本身也是一个向量空间（映射的加法与标量乘法逐点定义）。

例 1.2.2

零映射：$T(\boldsymbol{x}) = \boldsymbol{0}$ 对所有 $\boldsymbol{x} \in \mathbb{R}^n$。这是线性的。
恒等映射：$I: \mathbb{R}^n \to \mathbb{R}^n$，$I(\boldsymbol{x}) = \boldsymbol{x}$。线性显然。
一维情形：$T: \mathbb{R} \to \mathbb{R}$，$T(x) = cx$，其中 $c$ 为常数。这恰是所有从 $\mathbb{R}$ 到 $\mathbb{R}$ 的线性映射。注意，$T(x) = x + 1$ 不是线性的：齐次性要求 $T(ax) = aT(x)$ 对所有 $a$ 成立。取 $a = 0$，齐次性要求 $T(0) = 0 \cdot T(x) = 0$，但 $T(0) = 0 + 1 = 1$，矛盾。直观地说，$T(x) = x+1$ 的图是一条不经过原点的直线，而线性映射的图必须经过原点。
投影：$P: \mathbb{R}^3 \to \mathbb{R}^2$，$P(x^1, x^2, x^3) = (x^1, x^2)$。
伸缩与旋转：$T: \mathbb{R}^2 \to \mathbb{R}^2$，$T(x,y) = (2x, 3y)$（伸缩），$T(x,y) = (x\cos\theta - y\sin\theta, x\sin\theta + y\cos\theta)$（旋转）。

旁白：术语提醒

在初等数学中，$y = 2x + 1$ 常被称为"线性函数"，因为它表示的是一条直线。

在线性代数中，"线性"有更严格的要求：映射必须满足可加性和齐次性。$T(x) = 2x + 1$ 不满足这两条公理（因为 $T(0) = 1 \neq 0$），我们称它为仿射映射：它是一个线性映射（$x \mapsto 2x$）加上一个常数平移（$+1$）。

本书中的"线性"始终指严格意义上的线性映射。

旁白：线性映射保持原点

由齐次性（取 $a=0$），$T(\boldsymbol{0}) = \boldsymbol{0}$ 总是成立。因此线性映射一定把原点映到原点。这是检验一个映射是否线性的快速方法：如果 $T(\boldsymbol{0}) \neq \boldsymbol{0}$，则 $T$ 绝不可能是线性的。

1.2.2 矩阵表示

在 §1.2.1 中，我们定义了线性映射：它是一个满足可加性和齐次性的映射。这两个条件合在一起，有一个重要的推论：线性映射由它对基向量的作用完全决定。

为什么？我们来看具体的推导。设 $T: \mathbb{R}^n \to \mathbb{R}^m$ 是线性映射。取 $\mathbb{R}^n$ 的标准基 $\boldsymbol{e}_1, \dots, \boldsymbol{e}_n$。任意向量 $\boldsymbol{x} = (x^1, \dots, x^n)$ 都可以唯一地写为

\boldsymbol{x} = x^1\boldsymbol{e}_1 + x^2\boldsymbol{e}_2 + \dots + x^n\boldsymbol{e}_n.

现在对 $\boldsymbol{x}$ 施加 $T$，并逐次使用线性的两个条件：

旁白：逐步展开

第一步：$T(\boldsymbol{x}) = T(x^1\boldsymbol{e}_1 + x^2\boldsymbol{e}_2 + \dots + x^n\boldsymbol{e}_n)$

第二步：由可加性，拆开加法：$= T(x^1\boldsymbol{e}_1) + T(x^2\boldsymbol{e}_2) + \dots + T(x^n\boldsymbol{e}_n)$

第三步：由齐次性，提出系数：$= x^1 T(\boldsymbol{e}_1) + x^2 T(\boldsymbol{e}_2) + \dots + x^n T(\boldsymbol{e}_n)$。

结果简洁而关键：

T(\boldsymbol{x}) = x^1 T(\boldsymbol{e}_1) + x^2 T(\boldsymbol{e}_2) + \dots + x^n T(\boldsymbol{e}_n). \tag{1}

这个等式告诉我们：一旦知道了 $n$ 个向量 $T(\boldsymbol{e}_1), T(\boldsymbol{e}_2), \dots, T(\boldsymbol{e}_n)$，整个线性映射 $T$ 就被完全确定了——对任意输入 $\boldsymbol{x}$，只需将其分量 $x^j$ 作为系数，对这些向量做线性组合即可。

于是问题从"描述一个线性映射"简化为"记录 $n$ 个像向量"。而记录向量最紧凑的方式，就是把它们按顺序排成一个阵列——这就是矩阵。

从线性映射到矩阵：一个具体的例子

设 $T: \mathbb{R}^2 \to \mathbb{R}^3$。根据上面的讨论，我们只需要知道 $T(\boldsymbol{e}_1)$ 和 $T(\boldsymbol{e}_2)$。假设

T(\boldsymbol{e}_1) = \begin{pmatrix} 2 \\ 0 \\ 1 \end{pmatrix}, \qquad T(\boldsymbol{e}_2) = \begin{pmatrix} -1 \\ 3 \\ 0 \end{pmatrix}.

那么，由公式 (1)，对任意 $(x^1, x^2) \in \mathbb{R}^2$，

T(x^1, x^2) = x^1 \begin{pmatrix} 2 \\ 0 \\ 1 \end{pmatrix} + x^2 \begin{pmatrix} -1 \\ 3 \\ 0 \end{pmatrix} = \begin{pmatrix} 2x^1 - x^2 \\ 3x^2 \\ x^1 \end{pmatrix}.

把 $T(\boldsymbol{e}_1)$ 和 $T(\boldsymbol{e}_2)$ 这两个列向量并排放在一起，得到一个 $3 \times 2$ 的阵列：

A = \left( \begin{array}{c|c} 2 & -1 \\ 0 & 3 \\ 1 & 0 \end{array} \right).

第一列是 $T(\boldsymbol{e}_1)$，第二列是 $T(\boldsymbol{e}_2)$。这个阵列就是 $T$ 的矩阵表示。

旁白：列的视觉意义

把矩阵竖着读：第 $j$ 列就是第 $j$ 个标准基向量的像。

A = \left( \begin{array}{cccc} | & | & & | \\ T(\boldsymbol{e}_1) & T(\boldsymbol{e}_2) & \cdots & T(\boldsymbol{e}_n) \\ | & | & & | \end{array} \right)

矩阵不神秘——它只是一个把 $n$ 个列向量拼在一起的"表格"。

从矩阵到线性映射

反过来，给定一个矩阵，我们可以读出它定义的线性映射。例如

B = \begin{pmatrix} 1 & 0 & 2 \\ 0 & -1 & 1 \end{pmatrix}

是一个 $2 \times 3$ 矩阵。根据"每列是一个基向量的像"这一规则：

第一列 $(1,0)^{\mathrm{T}}$ 是 $T(\boldsymbol{e}_1)$，即 $T(1,0,0) = (1,0)$。
第二列 $(0,-1)^{\mathrm{T}}$ 是 $T(\boldsymbol{e}_2)$，即 $T(0,1,0) = (0,-1)$。
第三列 $(2,1)^{\mathrm{T}}$ 是 $T(\boldsymbol{e}_3)$，即 $T(0,0,1) = (2,1)$。

由公式 (1)，

T(x^1, x^2, x^3) = x^1 \begin{pmatrix} 1 \\ 0 \end{pmatrix} + x^2 \begin{pmatrix} 0 \\ -1 \end{pmatrix} + x^3 \begin{pmatrix} 2 \\ 1 \end{pmatrix} = \begin{pmatrix} x^1 + 2x^3 \\ -x^2 + x^3 \end{pmatrix}.

旁白：基的顺序是约定好的

标准基 $\boldsymbol{e}_1, \boldsymbol{e}_2, \dots, \boldsymbol{e}_n$ 是一个有序基。$\boldsymbol{e}_1 = (1,0,\dots,0)$ 总是第一个，$\boldsymbol{e}_2 = (0,1,\dots,0)$ 总是第二个，以此类推。所以"第一列对应 $\boldsymbol{e}_1$，第二列对应 $\boldsymbol{e}_2$"不是随意安排的——这是我们读取矩阵时所使用的固定约定。如果改变基的顺序，矩阵的列也要相应调整。在本书中，除非特别声明，我们始终使用这一标准有序基。

一般情形

对于一般的 $T: \mathbb{R}^n \to \mathbb{R}^m$，完全同样的步骤给出它的矩阵表示。

为表述简洁，我们约定符号：

$\mathbb{R}^n$ 的标准基记为 $\boldsymbol{e}_1, \dots, \boldsymbol{e}_n$，其中 $\boldsymbol{e}_j$ 的第 $j$ 个分量为 $1$，其余分量为 $0$。与 1.1.3 中的定义完全一致。
$\mathbb{R}^m$ 的标准基记为 $\boldsymbol{f}_1, \dots, \boldsymbol{f}_m$，其中 $\boldsymbol{f}_i$ 的第 $i$ 个分量为 $1$，其余分量为 $0$。它与 $\boldsymbol{e}_i$ 的定义方式相同，只是所在空间不同——我们用不同的字母 $\boldsymbol{f}$ 以避免混淆两个空间的基向量。

旁白：基向量是列向量

本书中，所有向量默认写作列向量。因此，

\boldsymbol{e}_1 = \begin{pmatrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \quad \boldsymbol{e}_2 = \begin{pmatrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \quad \dots, \quad \boldsymbol{e}_n = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 0 \\ 1 \end{pmatrix}.

$\boldsymbol{f}_1, \dots, \boldsymbol{f}_m$ 也是如此（只是向量"身高"不同：$\boldsymbol{e}_j$ 高 $n$，$\boldsymbol{f}_i$ 高 $m$）。

为什么采用列向量？因为当我们用矩阵 $A$ 表示线性映射时，映射的作用写作 $T(\boldsymbol{x}) = A\boldsymbol{x}$——矩阵左乘列向量。如果基向量不是列向量，这个乘法就无法定义。列向量的约定贯穿全书，它保证了线性映射、矩阵、坐标表示之间的无缝衔接。

旁白：为什么需要两套基？

$T$ 的定义域是 $\mathbb{R}^n$，值域是 $\mathbb{R}^m$。这两个空间的维数可能不同，因此它们的标准基属于不同的向量空间。用 $\boldsymbol{e}_j$ 表示定义域的基，$\boldsymbol{f}_i$ 表示值域的基，可以在求和公式中清楚地区分"来自哪个空间的坐标"。

核心事实：矩阵与线性映射的对应

设 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$。$T$ 的矩阵表示是一个 $m \times n$ 矩阵 $A$，其第 $j$ 列由 $T(\boldsymbol{e}_j)$ 在 $\boldsymbol{f}_1, \dots, \boldsymbol{f}_m$ 下的分量组成：

T(\boldsymbol{e}_j) = a_{1j}\boldsymbol{f}_1 + a_{2j}\boldsymbol{f}_2 + \dots + a_{mj}\boldsymbol{f}_m = \sum_{i=1}^m a_{ij}\boldsymbol{f}_i.

将这些系数排成矩阵，即

A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix}, \qquad \text{第 } j \text{ 列 } \begin{pmatrix} a_{1j} \\ a_{2j} \\ \vdots \\ a_{mj} \end{pmatrix} = T(\boldsymbol{e}_j).

换言之，矩阵 $A$ 的第 $j$ 列恰好是第 $j$ 个标准基向量 $\boldsymbol{e}_j$ 在 $T$ 下的像。

反过来，给定一个 $m \times n$ 矩阵 $A$，定义 $T(\boldsymbol{x}) = A\boldsymbol{x}$（矩阵乘法），则 $T$ 是一个线性映射，其矩阵表示恰为 $A$。

由此我们建立了线性映射与矩阵之间的一一对应。在不会引起混淆时，我们不区分 $T$ 和 $A$，直接写 $T(\boldsymbol{x}) = A\boldsymbol{x}$。

旁白：类型标注

$A$ 是 $m \times n$ 矩阵，表示 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$。

行数 $m$ = 目标空间维数，列数 $n$ = 定义域空间维数。

检验：$T(\boldsymbol{e}_j)$ 是 $\mathbb{R}^m$ 中的向量，所以每列有 $m$ 个分量。

求和符号的等价写法（选读）

如果你偏好公式，下面用求和符号写出同样的内容。设 $\boldsymbol{f}_1, \dots, \boldsymbol{f}_m$ 是 $\mathbb{R}^m$ 的标准基。由于 $T(\boldsymbol{e}_j)$ 可以写成 $\sum_{i=1}^m a_{ij} \boldsymbol{f}_i$，则

T(\boldsymbol{x}) = \Big( \sum_{j=1}^n a_{1j} x^j, \;\sum_{j=1}^n a_{2j} x^j, \;\dots,\; \sum_{j=1}^n a_{mj} x^j \Big).

这就是 $A\boldsymbol{x}$ 的分量形式。但本节的后续讨论中，我们更常使用"列作为基向量的像"这一视角，它比逐分量求和更接近映射的本质。

为什么我们需要矩阵？——承前启后的一个注记

本节的内容在逻辑上似乎完全是线性代数的复习。但它在本书中的位置，是为第2章的一个核心思想做准备。这个思想是：

核心思想

可微函数的导数是一个线性映射，因此它可以用一个矩阵——雅可比矩阵——来表示。

具体地说：

多元函数在一点附近的最佳线性近似，正是一个线性映射。（第2章将把这个直觉精确化。）这个线性映射接受输入的微小变化，输出输出的微小变化。
要具体"写出"这个线性映射，我们只需要记录它对每个坐标方向的响应。这正是本节建立的事实：线性映射由它在标准基上的值完全决定。
把这些响应按列排好，就得到雅可比矩阵。在第2章，这个矩阵的第 $j$ 列将是第 $j$ 个偏导数构成的列向量——但这是后话。重要的是，你现在已经知道：矩阵的"列"对应于"输入的第 $j$ 个方向被映射到哪里"。
复合的导数等于导数的复合。这个事实的代数体现是：链式法则中，雅可比矩阵相乘 $B \cdot A$ 对应于线性映射的复合。你在矩阵乘法中已经看到：$BA$ 表示"先作用 $A$，再作用 $B$"——这个顺序和函数复合 $g \circ f$ 一致。

因此，本节看似在讲线性代数，实际上是在为第2章搭建语言框架。当你进入第2章，看到

D(g \circ f)(\boldsymbol{a}) = Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a})

时，右边的 $\circ$ 是线性映射的复合，而用矩阵写出来就是

(g \circ f)'(\boldsymbol{a}) = g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a}),

这正是你熟悉的矩阵乘法。那时，你不必停下来想"矩阵乘法是怎么定义的"——你已经在 §1.2 中理解了它作为线性映射复合的代数本质。

旁白：为什么不用数值表格而用"矩阵"这个语言？

因为矩阵不仅仅是一个静态的数字表格。它自带乘法运算，而这个乘法恰好编码了线性映射的复合。这正是下一节（§1.2.3）的主题。

1.2.3 线性映射的复合与矩阵乘法

在 §1.2.2 中，我们建立了线性映射与矩阵的对应关系。其核心事实是：

核心回顾

矩阵的第 $j$ 列就是第 $j$ 个标准基向量的像。

本节讨论复合运算如何反映在矩阵上。

复合是自然的，矩阵表示要跟上

设 $T: \mathbb{R}^n \to \mathbb{R}^m$ 和 $S: \mathbb{R}^m \to \mathbb{R}^p$ 是两个线性映射。它们的复合 $S \circ T$ 定义为

(S \circ T)(\boldsymbol{x}) = S(T(\boldsymbol{x})), \qquad \boldsymbol{x} \in \mathbb{R}^n.

容易验证 $S \circ T$ 仍然是线性映射（见练习 1.2 第 5 题）。因此，按照 §1.2.2 的逻辑，它也应该有一个矩阵。这个矩阵是什么？

我们沿用"矩阵的列是基向量的像"这一原则。设 $A$ 是 $T$ 的矩阵（$m \times n$），$B$ 是 $S$ 的矩阵（$p \times m$）。想求 $S \circ T$ 的矩阵，只需对每个标准基向量 $\boldsymbol{e}_j \in \mathbb{R}^n$，计算它在 $S \circ T$ 下的像。

第一步：$\boldsymbol{e}_j$ 在 $T$ 下的像。

这正是 §1.2.2 中反复使用的对应：$T(\boldsymbol{e}_j)$ 就是 $A$ 的第 $j$ 列。用分量写出来：

T(\boldsymbol{e}_j) = \begin{pmatrix} a_{1j} \\ a_{2j} \\ \vdots \\ a_{mj} \end{pmatrix}.

第二步：再把这个结果送入 $S$。

现在需要算 $S(T(\boldsymbol{e}_j))$。我们已知 $S$ 的矩阵是 $B$。根据线性性质，

S(T(\boldsymbol{e}_j)) = S\!\left( \begin{pmatrix} a_{1j} \\ a_{2j} \\ \vdots \\ a_{mj} \end{pmatrix} \right).

这个向量的计算方法和 §1.2.2 中"从矩阵到线性映射"的步骤完全一样：把 $a_{1j}, \dots, a_{mj}$ 作为系数，去组合 $S$ 对各标准基向量的像。而 $S(\boldsymbol{f}_k)$（$\boldsymbol{f}_k$ 是 $\mathbb{R}^m$ 的标准基）正是 $B$ 的第 $k$ 列：

S(\boldsymbol{f}_k) = \begin{pmatrix} b_{1k} \\ b_{2k} \\ \vdots \\ b_{pk} \end{pmatrix}.

旁白：双下标记号的读法

$b_{ik}$ 表示矩阵 $B$ 的第 $i$ 行第 $k$ 列元素。第一个下标 $i$ 是行号（取值 $1$ 到 $p$，对应目标空间 $\mathbb{R}^p$ 的坐标），第二个下标 $k$ 是列号（取值 $1$ 到 $m$，对应定义域 $\mathbb{R}^m$ 的坐标）。这个约定与 $a_{ij}$ 完全一致：$a_{ij}$ 是矩阵 $A$ 的第 $i$ 行第 $j$ 列。

因此，

S(T(\boldsymbol{e}_j)) = a_{1j} \begin{pmatrix} b_{11} \\ b_{21} \\ \vdots \\ b_{p1} \end{pmatrix} + a_{2j} \begin{pmatrix} b_{12} \\ b_{22} \\ \vdots \\ b_{p2} \end{pmatrix} + \dots + a_{mj} \begin{pmatrix} b_{1m} \\ b_{2m} \\ \vdots \\ b_{pm} \end{pmatrix}. \tag{2}

这个向量的第 $i$ 个分量是

b_{i1}a_{1j} + b_{i2}a_{2j} + \dots + b_{im}a_{mj} = \sum_{k=1}^m b_{ik}a_{kj}.

第三步：拼成矩阵。

公式 (2) 告诉我们 $(S \circ T)(\boldsymbol{e}_j)$ 是 $B$ 的各列的线性组合，系数是 $A$ 的第 $j$ 列的各个分量。这是一个 $p$ 维列向量。把它作为第 $j$ 列拼进矩阵，就得到 $S \circ T$ 的矩阵 $C$：

C = \left( \begin{array}{cccc} | & | & & | \\ S(T(\boldsymbol{e}_1)) & S(T(\boldsymbol{e}_2)) & \cdots & S(T(\boldsymbol{e}_n)) \\ | & | & & | \end{array} \right).

$C$ 的第 $i$ 行第 $j$ 列元素是 $c_{ij} = \sum_{k=1}^m b_{ik}a_{kj}$。

这正是我们熟悉的矩阵乘法：$C = BA$。

旁白：再强调一次顺序

$S \circ T$ 的矩阵是 $BA$，而不是 $AB$。

为什么？因为对 $\boldsymbol{x}$ 作用时，先作用 $T$，再作用 $S$，对应于 $B(A\boldsymbol{x}) = (BA)\boldsymbol{x}$。

矩阵的"行乘列"规则不是任意约定的——它是复合运算的自然结果。

一个具体的数值验证

让我们用一个具体例子来确认这个推导。设

T: \mathbb{R}^2 \to \mathbb{R}^3, \quad T(x,y) = (2x, \, x+y, \, 3y),

S: \mathbb{R}^3 \to \mathbb{R}^2, \quad S(u,v,w) = (u-v, \, v+w).

它们的矩阵分别为

A = \begin{pmatrix} 2 & 0 \\ 1 & 1 \\ 0 & 3 \end{pmatrix}, \qquad B = \begin{pmatrix} 1 & -1 & 0 \\ 0 & 1 & 1 \end{pmatrix}.

先直接计算复合：

(S \circ T)(x,y) = S(2x, \, x+y, \, 3y) = (2x - (x+y), \; (x+y) + 3y) = (x-y, \; x+4y).

因此 $S \circ T$ 的矩阵应该是 $\begin{pmatrix} 1 & -1 \\ 1 & 4 \end{pmatrix}$。

再按矩阵乘法算 $BA$：

BA = \begin{pmatrix} 1 & -1 & 0 \\ 0 & 1 & 1 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 1 & 1 \\ 0 & 3 \end{pmatrix} = \begin{pmatrix} 1\cdot 2 + (-1)\cdot 1 + 0\cdot 0 & 1\cdot 0 + (-1)\cdot 1 + 0\cdot 3 \\ 0\cdot 2 + 1\cdot 1 + 1\cdot 0 & 0\cdot 0 + 1\cdot 1 + 1\cdot 3 \end{pmatrix} = \begin{pmatrix} 1 & -1 \\ 1 & 4 \end{pmatrix}.

一致。

旁白：这里的"行乘列"是什么几何意义？

$BA$ 的第 $j$ 列是 $B$ 的各列以 $A$ 的第 $j$ 列分量为权重的线性组合——这恰恰是公式 (2) 的内容。矩阵乘法的每一个步骤都有映射的几何意义作为支撑，而不是死记硬背的运算规则。

定理 1.2.5（复合的矩阵表示）

设 $T: \mathbb{R}^n \to \mathbb{R}^m$ 的矩阵为 $A$，$S: \mathbb{R}^m \to \mathbb{R}^p$ 的矩阵为 $B$，则复合 $S \circ T$ 的矩阵为 $BA$。 $\square$

回顾 §1.2.2 末尾的注记：矩阵不只是一个静态的数字表格，它自带的乘法恰好编码了线性映射的复合。这正是本节的结论。至此，我们已经建立了两个基本事实：

线性映射由矩阵表示。（§1.2.2）
线性映射的复合对应于矩阵乘法。（本节）

这两个事实构成了从线性代数通向多元微分学的桥梁。在第 2 章中，可微函数 $f$ 在点 $\boldsymbol{a}$ 的导数 $Df(\boldsymbol{a})$ 被定义为一个线性映射。上述两个事实的直接推论是：

$Df(\boldsymbol{a})$ 在标准基下的矩阵即为雅可比矩阵 $f'(\boldsymbol{a})$。
链式法则 $D(g \circ f)(\boldsymbol{a}) = Dg(f(\boldsymbol{a})) \circ Df(\boldsymbol{a})$ 在矩阵形式下化为 $(g \circ f)'(\boldsymbol{a}) = g'(f(\boldsymbol{a})) \cdot f'(\boldsymbol{a}),$ 其中右边的乘法即矩阵乘法。复合的顺序在两种表示下保持一致：先作用的映射，其矩阵写在右边。

因此，本节所建立的矩阵乘法规则，其意义不限于线性代数本身。它编码了线性映射的复合结构，并将在第 2 章中成为链式法则的代数核心。

1.2.4 算子范数与线性映射的连续性

在 §1.2.2 中，我们把线性映射表示为矩阵。现在要问一个分析学中的基本问题：当我们把向量 $\boldsymbol{x}$ 送入线性映射 $T$ 时，输出 $T(\boldsymbol{x})$ 的"大小"与输入 $\boldsymbol{x}$ 的"大小"之间有什么关系？

这个问题之所以重要，源于一个简单的几何观察。考虑两个线性映射：

T_1(x,y) = (x, y), \qquad T_2(x,y) = (100x, 100y).

$T_1$ 保持向量长度不变，$T_2$ 将每个向量拉伸 100 倍。两者都是线性的，但它们的"作用强度"截然不同。我们能否用一个数字来精确地刻画这种"拉伸能力"？

这个数字就是算子范数。它的核心功能是：给每一个线性映射 $T$ 配备一个非负数 $\|T\|$，使得对任意输入向量 $\boldsymbol{x}$，输出的大小被 $\|T\| \cdot \|\boldsymbol{x}\|$ 控制。用公式表达，我们希望有

\|T(\boldsymbol{x})\| \le \|T\| \cdot \|\boldsymbol{x}\| \quad \text{对所有 } \boldsymbol{x} \in \mathbb{R}^n. \tag{3}

如何定义 $\|T\|$？

自然的想法是：考虑所有单位向量被拉伸的倍数，取其中最大者。也就是说，我们希望在单位球面上最大化 $\|T(\boldsymbol{x})\|$。这引出了以下定义。

定义 1.2.6（算子范数）

设 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$。$T$ 的算子范数定义为

\|T\| = \sup_{\substack{\boldsymbol{x} \in \mathbb{R}^n \\ \|\boldsymbol{x}\| = 1}} \|T(\boldsymbol{x})\|.

旁白：类型标注

$\|\cdot\|$ 同时表示 $\mathbb{R}^n$ 和 $\mathbb{R}^m$ 中的欧氏范数，而 $\|T\|$ 是新定义的算子范数，属于 $[0,\infty)$。不同的范数从上下文可区分。

验证 $\|T\|$ 满足不等式 (3)

由定义，对任何单位向量 $\boldsymbol{u}$，有 $\|T(\boldsymbol{u})\| \le \|T\|$。对任意非零向量 $\boldsymbol{x}$，令 $\boldsymbol{u} = \boldsymbol{x}/\|\boldsymbol{x}\|$，则 $\|\boldsymbol{u}\| = 1$，于是

\|T(\boldsymbol{x})\| = \|T(\|\boldsymbol{x}\|\boldsymbol{u})\| = \|\boldsymbol{x}\| \cdot \|T(\boldsymbol{u})\| \le \|\boldsymbol{x}\| \cdot \|T\|.

若 $\boldsymbol{x} = \boldsymbol{0}$，则 $\|T(\boldsymbol{x})\| = 0 = \|T\| \cdot \|\boldsymbol{x}\|$。因此不等式 (3) 对一切 $\boldsymbol{x}$ 成立。

但这里有一个隐患：定义 1.2.6 中的上确界有可能是无穷大。如果 $\|T\| = \infty$，不等式 (3) 就毫无意义——无穷大不是一个实数，不能用来做估计。因此，在我们可以放心地使用 (3) 之前，必须先确认 $\|T\|$ 是一个有限实数。

算子范数的有限性

证明 $\|T\| < \infty$ 的关键是回到 §1.2.2 的核心事实：线性映射由它在基向量上的值完全决定。取 $\mathbb{R}^n$ 的标准基 $\boldsymbol{e}_1, \dots, \boldsymbol{e}_n$。任何单位向量 $\boldsymbol{x}$ 可以写为 $\boldsymbol{x} = \sum_{j=1}^n x^j \boldsymbol{e}_j$，其中 $\sum_{j=1}^n (x^j)^2 = 1$（因为 $\|\boldsymbol{x}\| = 1$）。特别地，对每个 $j$，有 $|x^j| \le 1$。

由线性性质和三角不等式，

\|T(\boldsymbol{x})\| = \left\| \sum_{j=1}^n x^j T(\boldsymbol{e}_j) \right\| \le \sum_{j=1}^n |x^j| \cdot \|T(\boldsymbol{e}_j)\| \le \sum_{j=1}^n \|T(\boldsymbol{e}_j)\|.

最后一步用了 $|x^j| \le 1$。

注意，$T(\boldsymbol{e}_1), \dots, T(\boldsymbol{e}_n)$ 是 $\mathbb{R}^m$ 中的 $n$ 个确定的向量，它们的范数 $\|T(\boldsymbol{e}_j)\|$ 都是固定的有限数。因此 $M = \sum_{j=1}^n \|T(\boldsymbol{e}_j)\|$ 是一个有限实数。

上面的推导表明：对单位球面上的任何 $\boldsymbol{x}$，都有 $\|T(\boldsymbol{x})\| \le M$。因此上确界 $\sup_{\|\boldsymbol{x}\|=1} \|T(\boldsymbol{x})\|$ 不超过 $M$，即 $\|T\| \le M < \infty$。

旁白：这个估计的几何直觉

单位球面上的任何向量都是标准基向量的线性组合，系数分量不超过 1。$T$ 把这个向量映射到 $\mathbb{R}^m$ 中，结果的长度不会超过各基向量的像的长度之和。因为只有有限个基向量，这个和是有限的。

简单地说：$T$ 对基向量的拉伸有某个最大值，对任何单位向量的拉伸不会超过这些最大值的总和。

为了用矩阵元素具体写出 $M$，我们也可以用柯西–施瓦茨不等式得到更紧凑的上界：

\|T(\boldsymbol{x})\|^2 = \sum_{i=1}^m \left( \sum_{j=1}^n a_{ij} x^j \right)^2 \le \sum_{i=1}^m \left( \sum_{j=1}^n a_{ij}^2 \right) \left( \sum_{j=1}^n (x^j)^2 \right) = \sum_{i,j} a_{ij}^2,

因此 $\|T\|$ 不超过矩阵元素的平方和的平方根。这个界在处理具体矩阵时可能更方便，但其核心仍然是同一个事实：有限个基向量的像的范数是有限的。

旁白：为什么不过度强调矩阵元素的上界？

基于基向量像的估计 $M = \sum \|T(\boldsymbol{e}_j)\|$ 直接源于线性映射的本质，不依赖坐标选择。它清楚地表明：有限性是向量空间有限维数的推论。矩阵元素平方和只是这个估计在标准基下的一个具体形式，在一般流形上没有全局坐标时并不可用。因此，本书更强调基于基向量的证明。

算子范数的基本性质

$\|T\|$ 已经被确认是有限实数。现在验证它满足范数公理。

定理 1.2.7（算子范数的基本性质）

设 $T, S \in L(\mathbb{R}^n, \mathbb{R}^m)$，$a \in \mathbb{R}$。

$\|T\| \ge 0$，且 $\|T\| = 0$ 当且仅当 $T = 0$（零映射）。
$\|aT\| = |a| \|T\|$。
三角不等式：$\|T + S\| \le \|T\| + \|S\|$。

证明概要

性质1直接由定义得到。性质2：对任意单位向量 $\boldsymbol{u}$，$\|(aT)(\boldsymbol{u})\| = |a| \|T(\boldsymbol{u})\|$，取上确界即得。性质3：对任意单位向量 $\boldsymbol{u}$，$\|(T+S)(\boldsymbol{u})\| \le \|T(\boldsymbol{u})\| + \|S(\boldsymbol{u})\| \le \|T\| + \|S\|$，取上确界即得。 ∎

定义 1.2.8（赋范向量空间）

在 §1.2.1 中我们指出，$L(\mathbb{R}^n, \mathbb{R}^m)$ 在逐点加法与标量乘法下是一个向量空间。定理 1.2.7 的三条性质恰好就是范数公理（与定理 1.1.5 对照），因此算子范数赋予了这个向量空间一个范数结构。这种配备了范数的向量空间称为赋范向量空间。

赋范向量空间的定位意味着我们可以在 $L(\mathbb{R}^n, \mathbb{R}^m)$ 上讨论极限、连续性和完备性。在第 2 章中，导数 $Df(\boldsymbol{a})$ 就是这个空间中的一个元素，"$f$ 是 $C^1$ 的"指映射 $\boldsymbol{a} \mapsto Df(\boldsymbol{a})$ 连续——这正是赋范向量空间之间映射的连续性。

算子范数与连续性

不等式 (3) 已成立（因为 $\|T\|$ 已确认为有限），它立即给出线性映射的一致连续性。

推论 1.2.9（线性映射的连续性）

任何 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$ 是（一致）连续的。具体地，对任意 $\boldsymbol{x}, \boldsymbol{y} \in \mathbb{R}^n$，

\|T(\boldsymbol{x}) - T(\boldsymbol{y})\| \le \|T\| \|\boldsymbol{x} - \boldsymbol{y}\|.

证明

首先，由线性性质，$T(\boldsymbol{x}) - T(\boldsymbol{y}) = T(\boldsymbol{x} - \boldsymbol{y})$。由不等式 (3)，

\|T(\boldsymbol{x}) - T(\boldsymbol{y})\| = \|T(\boldsymbol{x} - \boldsymbol{y})\| \le \|T\| \|\boldsymbol{x} - \boldsymbol{y}\|. \tag{4}

这证明了不等式本身。

现在验证一致连续性。给定任意 $\varepsilon > 0$，要找 $\delta > 0$，使得只要 $\|\boldsymbol{x} - \boldsymbol{y}\| < \delta$，就有 $\|T(\boldsymbol{x}) - T(\boldsymbol{y})\| < \varepsilon$。

由 (4)，输出误差不超过输入误差的 $\|T\|$ 倍。因此，要让输出误差小于 $\varepsilon$，只需让 $\|T\| \|\boldsymbol{x} - \boldsymbol{y}\| < \varepsilon$，即 $\|\boldsymbol{x} - \boldsymbol{y}\| < \varepsilon/\|T\|$。

但有一个细微之处：如果 $\|T\| = 0$，分母为零，上述除法没有意义。好在这种情况下，由定理 1.2.7 第 1 条，$\|T\| = 0$ 意味着 $T = 0$（零映射），此时 $\|T(\boldsymbol{x}) - T(\boldsymbol{y})\| = 0$ 对所有 $\boldsymbol{x}, \boldsymbol{y}$ 成立，任何 $\delta > 0$ 都满足要求。

为避免分情况讨论，取

\delta = \frac{\varepsilon}{\|T\| + 1}.

分母加 1 保证了 $\delta > 0$ 且总有意义（即使 $\|T\| = 0$）。此时，若 $\|\boldsymbol{x} - \boldsymbol{y}\| < \delta$，则

\|T(\boldsymbol{x}) - T(\boldsymbol{y})\| \le \|T\| \|\boldsymbol{x} - \boldsymbol{y}\| < \|T\| \cdot \frac{\varepsilon}{\|T\| + 1} < \varepsilon.

最后一步用到了 $\frac{\|T\|}{\|T\| + 1} < 1$。 ∎

旁白：这个估计的核心逻辑

不等式 (4) 是关键：输出误差被输入误差乘以一个固定常数 $\|T\|$ 所控制。$\|T\|$ 是我们刚确认的有限数——正因为它有限，输入足够小时输出可以任意小。这就是线性映射为什么总是连续的：拉伸能力始终是有限的，不会在某处"爆炸"。

例 1.2.10（算子范数的计算）

考虑 $T: \mathbb{R}^2 \to \mathbb{R}^2$，$T(x,y) = (3x, 4y)$，其矩阵为 $\begin{pmatrix} 3 & 0 \\ 0 & 4 \end{pmatrix}$。我们来计算 $\|T\|$。

单位圆上的任意向量可写为 $(\cos\theta, \sin\theta)$，其中 $\theta \in [0, 2\pi)$。则

\|T(\cos\theta, \sin\theta)\|^2 = \|(3\cos\theta, 4\sin\theta)\|^2 = 9\cos^2\theta + 16\sin^2\theta.

利用 $\cos^2\theta + \sin^2\theta = 1$，将 $\cos^2\theta = 1 - \sin^2\theta$ 代入：

\|T(\cos\theta, \sin\theta)\|^2 = 9(1 - \sin^2\theta) + 16\sin^2\theta = 9 + 7\sin^2\theta.

当 $\theta$ 在 $[0, 2\pi)$ 中变化时，$\sin^2\theta$ 的取值范围是 $[0, 1]$。因此，$\|T(\cos\theta, \sin\theta)\|^2$ 的取值范围是 $[9, 16]$。最大值 $16$ 在 $\sin^2\theta = 1$ 时达到，即 $\theta = \pi/2$ 或 $3\pi/2$；最小值 $9$ 在 $\sin^2\theta = 0$ 时达到，即 $\theta = 0$ 或 $\pi$。

因此，

\max_{\|\boldsymbol{x}\| = 1} \|T(\boldsymbol{x})\| = \sqrt{16} = 4,

即 $\|T\| = 4$。

旁白：这个证明的两步结构

计算算子范数的一般方法：先把 $\|T(\boldsymbol{x})\|^2$ 表达为一个关于参数（如 $\theta$）的函数，在单位球面上求出这个函数的上确界。本节例子简单，可以用三角恒等式化为一元函数处理。更一般地，算子范数等于矩阵 $A^{\mathrm{T}}A$ 的最大特征值的平方根——这个事实属于线性代数课程的内容，本书不展开。

1.2.5 线性映射的空间 $L(\mathbb{R}^n, \mathbb{R}^m)$ 作为赋范向量空间

在 §1.2.1 中我们指出，$L(\mathbb{R}^n, \mathbb{R}^m)$ 在逐点加法与标量乘法下是一个向量空间。定理 1.2.7 的三条性质恰好就是范数公理，因此算子范数赋予了这个向量空间一个范数结构，使其成为赋范向量空间。这一定位意味着我们可以在其上讨论极限、连续性、完备性等分析学概念。

在第 2 章中，可微函数 $f$ 在点 $\boldsymbol{a}$ 的导数 $Df(\boldsymbol{a})$ 被定义为满足

\lim_{\boldsymbol{h} \to \boldsymbol{0}} \frac{\|f(\boldsymbol{a}+\boldsymbol{h}) - f(\boldsymbol{a}) - T(\boldsymbol{h})\|}{\|\boldsymbol{h}\|} = 0

的那个唯一的线性映射 $T$。在这个定义中，$T = Df(\boldsymbol{a})$ 正是 $L(\mathbb{R}^n, \mathbb{R}^m)$ 中的一个元素。标准基下，$Df(\boldsymbol{a})$ 的矩阵就是读者熟悉的雅可比矩阵。

更为重要的是，当我们在第 2 章中说"$f$ 是连续可微的（$C^1$）"，其含义是映射 $\boldsymbol{a} \mapsto Df(\boldsymbol{a})$ 作为从 $\mathbb{R}^n$ 到赋范向量空间 $L(\mathbb{R}^n, \mathbb{R}^m)$ 的映射是连续的。没有算子范数赋予的拓扑结构，这一陈述根本无法精确表达。

本节引入的算子范数及其基本性质，正是为多元微积分中的误差估计和连续性论证打下基础。至此，我们已经为从初等微积分跃入多元微分学做好了线性代数层面的全部语言准备。

练习 1.2

【计算验证型】

验证下列映射是否为线性映射：
- (a) $T: \mathbb{R}^2 \to \mathbb{R}^2$，$T(x,y) = (2x + y, x - y)$。
- (b) $T: \mathbb{R}^2 \to \mathbb{R}$，$T(x,y) = xy$。
- (c) $T: \mathbb{R}^3 \to \mathbb{R}^2$，$T(x,y,z) = (x + y + z, 0)$。
- (d) $T: \mathbb{R} \to \mathbb{R}$，$T(x) = \sin x$。
求上述 (a) 和 (c) 中线性映射在标准基下的矩阵。
设 $T: \mathbb{R}^2 \to \mathbb{R}^2$ 的矩阵为 $\begin{pmatrix} 3 & -1 \\ 2 & 0 \end{pmatrix}$，计算 $T(2, -3)$ 和 $\|T(2, -3)\|$。
设 $T: \mathbb{R}^2 \to \mathbb{R}^2$ 是逆时针旋转 $\theta$ 角的旋转，写出其矩阵，并验证 $\|T(\boldsymbol{x})\| = \|\boldsymbol{x}\|$ 对所有 $\boldsymbol{x}$ 成立。由此推断 $\|T\| = 1$。
证明：若 $T \in L(\mathbb{R}^n, \mathbb{R}^m)$ 且 $S \in L(\mathbb{R}^m, \mathbb{R}^p)$，则 $\|S \circ T\| \le \|S\| \|T\|$。

【概念辨析型】

判断下列命题的真伪，并给出理由或反例：
- (a) 如果 $T: \mathbb{R}^n \to \mathbb{R}^m$ 满足 $T(\boldsymbol{0}) = \boldsymbol{0}$，则 $T$ 是线性映射。
- (b) 线性映射一定将直线映射为直线。
- (c) 算子范数 $\|T\|$ 等于矩阵 $A$ 的元素绝对值之和 $\sum_{i,j} |a_{ij}|$。
- (d) 两个线性映射的复合与顺序无关（即 $S \circ T = T \circ S$ 总成立）。
解释为什么在定义 1.2.6 中要取上确界 $\sup$，而不是最大值。在 $\mathbb{R}^n$ 中单位球面是紧集，这是否保证上确界可达？为什么？
如果我们将 $\mathbb{R}^n$ 上的范数换成另一个范数（如 $\|\boldsymbol{x}\|_1 = \sum |x^i|$），线性映射的算子范数会变化。这对线性映射的连续性有影响吗？试说明。

上一节 1.1 向量、范数与内积下一节 1.3 欧氏空间的拓扑初步