线性代数几何直观及其深度学习应用

前置说明

1. 受众与预备知识

本文面向具备基础线性代数运算能力，从事机器学习、深度学习相关工作的研究者、工程师，以及希望深入理解矩阵运算几何本质的学习者。要求读者掌握矩阵乘法、行列式、特征值的基础代数定义，无需额外的高阶数学基础。

2. 核心目标

以几何直观为核心线索，构建线性代数核心概念的完整逻辑闭环，厘清概念间的内在关联，建立代数定义与几何本质的对应关系，并明确各概念在深度学习中的典型应用场景与底层逻辑。

3. 逻辑脉络

本文遵循「基础定义→特殊情形→一般规律→局限突破→应用落地」的认知递进路径，从最规整的线性变换建立基准几何直觉，逐步拓展至任意矩阵的通用分解，最终统一所有核心概念的几何逻辑，并落地到深度学习的典型场景。

4. 符号说明

本文采用线性代数通用规范符号，矩阵用大写黑体字母表示，向量用小写黑体字母表示，标量用斜体字母表示，正交矩阵、对角矩阵有专属规范标记，全文符号统一。

正文章节

第 1 章线性变换与实对称矩阵的基础几何

1.1 线性变换与矩阵乘法的几何本质

1.1.1 线性变换的定义与基本性质

线性变换是线性代数的核心研究对象，它满足两个核心性质：可加性 $T(\boldsymbol{x}+\boldsymbol{y})=T(\boldsymbol{x})+T(\boldsymbol{y})$ 与齐次性 $T(k\boldsymbol{x})=kT(\boldsymbol{x})$ 。这两个性质保证了变换不会改变向量空间的线性结构，换句话说，变换后的直线仍然是直线，原点保持固定，不会发生扭曲或平移。对于任意的线性变换，我们都可以用一个矩阵来唯一描述它：在标准正交基下，变换后的基向量恰好构成了矩阵的列向量，这就是矩阵乘法的几何本质 —— 矩阵乘以向量，本质上就是用这个线性变换对向量进行作用。

下面的动态可视化直观展示了线性变换的核心性质：直线上的点经过变换后，仍然保持在一条直线上，不会发生扭曲。

1.1.2 二维线性变换对单位圆的映射规律

为了直观理解线性变换的效果，我们可以观察二维平面上的单位圆在变换后的形态。由于线性变换的线性特性，单位圆上的所有点经过变换后，会被映射为一个椭圆。这个椭圆的长轴、短轴以及旋转角度，完整地刻画了这个线性变换的所有核心信息：它描述了变换在不同方向上的拉伸能力，以及整体的旋转效应。下面的交互可视化展示了这一过程：灰色虚线是原始的单位圆，红色实线是变换后的椭圆，蓝色和绿色的箭头分别展示了标准基向量 $\boldsymbol{i}$ 、 $\boldsymbol{j}$ 在变换前后的位置。

1.1.3 标准基向量在线性变换下的映射

从上面的可视化中我们可以看到，标准基向量 $\boldsymbol{i}=(1,0)$ 和 $\boldsymbol{j}=(0,1)$ 经过变换后，分别变成了矩阵的列向量： $A\boldsymbol{i}$ 就是矩阵的第一列， $A\boldsymbol{j}$ 就是矩阵的第二列。这是因为，任意向量 $\boldsymbol{x}$ 都可以表示为标准基的线性组合 $\boldsymbol{x} = x_1 \boldsymbol{i} + x_2 \boldsymbol{j}$ ，根据线性变换的性质， $T(\boldsymbol{x}) = x_1 T(\boldsymbol{i}) + x_2 T(\boldsymbol{j})$ ，这正好就是矩阵乘法 $A \boldsymbol{x}$ 的计算过程。这也解释了为什么矩阵的列空间就是线性变换的值域：所有变换后的向量，都只是变换后的基向量的线性组合。

1.2 二次型的几何直观

1.2.1 二次型的定义与标准形式

二次型是实对称矩阵最常见的应用形式之一，它的代数定义是 $f(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x}$ ，其中 $A$ 是 $n$ 阶实对称矩阵， $\boldsymbol{x}$ 是 $n$ 维向量。展开来看，它是一个关于 $\boldsymbol{x}$ 的各个分量的二次齐次多项式，比如二维的情况下， $f(x_1,x_2) = a_{11} x_1^2 + 2a_{12} x_1 x_2 + a_{22} x_2^2$ 。二次型在优化问题、统计建模中非常常见，比如损失函数的二阶近似、概率密度的指数项，本质上都是二次型。

1.2.2 二次型对应的标量场与等高线特征

从几何的角度来看，二次型定义了一个 $n$ 维空间中的标量场：对于空间中的每个点 $\boldsymbol{x}$ ，我们都可以计算出一个标量值 $f(\boldsymbol{x})$ 。如果我们把 $f(\boldsymbol{x})$ 取固定值 $c$ ，就可以得到这个标量场的等高线。对于正定的实对称矩阵 $A$ 来说，这个等高线就是一个 $n$ 维的椭球，二维情况下就是我们之前看到的椭圆。这个椭圆的形态完全由矩阵 $A$ 的特征值和特征向量决定：椭圆的主轴方向正好是 $A$ 的特征向量的方向，而椭圆的半轴长度则是 $\sqrt{c/\lambda_i}$ ，其中 $\lambda_i$ 是对应的特征值。这意味着，特征值越大，对应的半轴越短，也就是说，在这个方向上，二次型的函数值增长得越快。下面的可视化展示了二次型 $f(\boldsymbol{x})=\boldsymbol{x}^T A \boldsymbol{x}=1$ 的等高线，以及对应的特征向量方向：

1.2.3 二次型极值点与特征向量、特征值的对应关系

当我们在单位球面上最大化二次型 $f(\boldsymbol{x})=\boldsymbol{x}^T A \boldsymbol{x}$ 时，我们会发现，最大值正好就是矩阵 $A$ 的最大特征值 $\lambda_1$ ，而取得最大值的点 $\boldsymbol{x}$ 就是对应的特征向量 $\boldsymbol{v}_1$ 。同理，最小值就是最小的特征值 $\lambda_n$ ，对应的点是最小特征值的特征向量。这是因为，在特征向量的方向上，二次型的增长速度是最快的，而在正交的方向上，增长速度则由对应的特征值决定。这也解释了为什么在优化问题中，海森矩阵的特征值决定了函数的曲率：特征值越大，函数在这个方向上弯曲得越厉害。

1.3 实对称矩阵的正交对角化

1.3.1 实对称矩阵特征值与特征向量的核心性质

实对称矩阵有两个非常重要的性质：第一，它的所有特征值都是实数；第二，不同特征值对应的特征向量是互相正交的。这两个性质是实对称矩阵区别于一般矩阵的核心特点，也是它在应用中如此广泛的原因。对于一般的矩阵，特征向量可能是斜交的，甚至可能不存在足够的特征向量，但实对称矩阵永远可以找到一组正交的单位特征向量，构成整个空间的一组标准正交基。

下面的动态可视化对比了实对称矩阵和非对称矩阵的特征向量：实对称矩阵的两个特征向量始终保持正交，而非对称矩阵的特征向量是斜交的。

1.3.2 正交对角化的几何意义：正交基下的独立缩放

基于上面的性质，我们可以把实对称矩阵分解为 $A = Q \Lambda Q^T$ ，其中 $Q$ 是正交矩阵，它的列是 $A$ 的单位特征向量， $\Lambda$ 是对角矩阵，对角元是对应的特征值。这个分解就是正交对角化。从几何的角度来看，这个分解描述了线性变换的过程：首先，我们通过 $Q^T$ 把标准坐标系旋转到特征向量的坐标系下，在这个新的坐标系下，原来的线性变换就变成了一个简单的缩放变换：每个坐标轴方向上，我们把坐标乘以对应的特征值 $\lambda_i$ ，最后再通过 $Q$ 把坐标系旋转回原来的标准坐标系。换句话说，实对称矩阵对应的线性变换，本质上就是在一组正交基下的独立缩放，没有剪切、没有扭曲，只是在各个正交的方向上，按照不同的比例拉伸空间。这也解释了为什么单位圆经过实对称矩阵的变换后，得到的椭圆的主轴是正交的，因为这两个拉伸方向本身就是正交的。

1.3.3 二次型等高线椭圆的几何参数解析

结合正交对角化的结果，我们可以很容易地解释二次型等高线椭圆的参数。对于二次型 $\boldsymbol{x}^T A \boldsymbol{x} = c$ ，我们做变量替换 $\boldsymbol{y} = Q^T \boldsymbol{x}$ ，那么二次型就变成了 $\boldsymbol{y}^T \Lambda \boldsymbol{y} = \sum \lambda_i y_i^2 = c$ 。这在 $\boldsymbol{y}$ 的坐标系下，就是一个轴对齐的椭球，半轴长度是 $\sqrt{c/\lambda_i}$ 。而 $Q$ 是正交矩阵，对应坐标系的旋转，所以转换回 $\boldsymbol{x}$ 的坐标系，这个椭球就被旋转了 $Q$ 对应的角度，主轴方向就是 $Q$ 的列向量，也就是特征向量的方向，这和我们之前观察到的结果完全一致。

第 2 章方阵核心数值属性的几何意义

2.1 行列式

2.1.1 行列式的代数定义与基本运算性质

行列式是方阵的一个标量属性，它的代数定义可以通过逆序数的全排列展开来描述，也可以通过高斯消元过程中的行变换来计算。它满足几个核心的运算性质： $\det(AB)=\det(A)\det(B)$ ， $\det(A^T)=\det(A)$ ，如果 $A$ 有一行是其他行的线性组合，那么 $\det(A)=0$ 。这些代数性质背后，都有清晰的几何解释。

2.1.2 二维情形：线性变换的面积缩放因子与定向变换

在二维平面上，行列式的几何意义非常直观：它就是线性变换对空间面积的缩放因子。我们知道，标准基向量 $\boldsymbol{i}$ 和 $\boldsymbol{j}$ 构成的单位正方形，面积是 1。经过线性变换之后，这两个基向量变成了矩阵的列向量，它们构成的平行四边形的面积，正好就是矩阵的行列式。比如，对于矩阵 $A=\begin{bmatrix}a&b\\c&d\end{bmatrix}$ ，这个平行四边形的面积就是 $ad-bc$ ，正好就是行列式的定义。如果行列式是正的，说明变换保持了空间的定向；如果是负的，说明变换发生了翻转，也就是镜像；如果行列式是 0，说明变换把二维空间压缩到了一维或者零维，面积变成了 0，这也对应了矩阵是奇异的，不可逆的。

下面的交互画板用滑块演示了行列式趋近于零时的空间坍缩：拖动滑块改变矩阵参数 $b$，当 $b=2$ 时 $\det(A)=0$，观察红色平行四边形如何压扁为一条线。

下面的动态可视化直观展示了行列式的几何意义：单位正方形经过线性变换后，变成了平行四边形，它的面积正好是原面积乘以矩阵的行列式。

2.1.3 高维情形：超体积缩放的几何本质

推广到高维，行列式的几何意义就是 $n$ 维空间中超体积的缩放因子。标准基向量构成的单位超立方体，体积是 1，经过线性变换之后，变成了一个平行多面体，它的体积就是矩阵的行列式。同样，行列式的符号代表了空间的定向，行列式为 0 意味着变换把高维空间压缩到了更低的维度，矩阵不可逆。

2.1.4 行列式与特征值的代数关联

从特征值的角度来看，行列式等于所有特征值的乘积。这也很容易从几何上理解：因为实对称矩阵的变换是在各个特征方向上的独立缩放，每个方向的缩放比例是 $\lambda_i$ ，那么整体的体积缩放比例就是所有缩放比例的乘积，也就是 $\lambda_1 \lambda_2 ... \lambda_n$ ，这正好就是行列式。对于一般的可对角化矩阵，这个结论同样成立，因为特征值就是各个特征方向上的缩放比例，体积的缩放就是它们的乘积。

2.2 迹

2.2.1 迹的代数定义与循环不变性

迹是方阵的另一个标量属性，它的代数定义是矩阵对角线元素的和， $\text{tr}(A)=\sum A_{ii}$ 。迹有一个非常重要的性质，就是循环不变性： $\text{tr}(ABC)=\text{tr}(BCA)=\text{tr}(CAB)$ ，这个性质在深度学习的梯度计算中非常常用，比如矩阵迹的导数，经常会用到这个性质来交换矩阵的顺序。

2.2.2 迹的几何直观：线性变换的平均拉伸能力

迹的几何意义，不仅是迹等于所有特征值的和，更代表了线性变换的“平均自身拉伸能力”。我们知道，对于任意的线性变换，它在不同的方向上的拉伸能力是不同的。换句话说，如果你随机取一个单位向量 $\boldsymbol{x}$，考察变换后的向量 $A\boldsymbol{x}$ 在原方向 $\boldsymbol{x}$ 上的投影长度（即 $\boldsymbol{x}^T A \boldsymbol{x}$），那么它的期望正好等于 $\text{tr}(A) / n$。这是因为迹等于所有特征方向上的拉伸系数的总和，反映了空间整体向外扩张的平均趋势。比如，对于单位矩阵，迹就是 $n$，每个方向的投影拉伸都是 1，平均也是 1。对于实对称矩阵，迹就是各个正交拉伸方向的缩放比例的和，非常直观。

下面的交互画板展示了迹的几何直观：请用鼠标拖拽蓝色点 x 沿单位圆转动，观察红色向量 $A\boldsymbol{x}$ 在原方向 $\boldsymbol{x}$ 上的投影长度 $\boldsymbol{x}^T A\boldsymbol{x}$ 如何变化——理论平均值恰好等于 $\text{tr}(A)/2$。

2.2.3 迹与特征值、奇异值的代数关联

和行列式类似，迹也等于所有特征值的和， $\text{tr}(A)=\sum \lambda_i$ 。这个结论对于任意方阵都成立，不管是不是可对角化，这个等式都成立。而对于奇异值，迹和奇异值的关系则没有这么直接，不过对于半正定矩阵，奇异值就等于特征值，所以此时迹也等于奇异值的和。

2.2.4 迹与矩阵范数的内在联系

迹和矩阵的 Frobenius 范数有着非常紧密的联系，Frobenius 范数的平方 $||A||_F^2$ 正好等于 $\text{tr}(A^T A)$ 。这是因为， $A^T A$ 的对角线元素，就是 $A$ 的各个列向量的模长的平方，它们的和就是所有元素的平方和，也就是 Frobenius 范数的平方。这个性质在深度学习的正则化中非常常用，比如 L2 正则化，本质上就是对权重矩阵的 Frobenius 范数进行惩罚，而这可以通过迹来简洁地表示。

第 3 章实对称矩阵在统计建模中的应用

3.1 多元高斯分布的几何解析

3.1.1 零均值多元高斯分布的概率密度函数

零均值的多元高斯分布，是统计建模中最基础的分布之一，它的概率密度函数是：

其中 $\Sigma$ 是协方差矩阵，它是一个正定的实对称矩阵。这个公式看起来很复杂，但从几何的角度来看，它的结构非常清晰。

3.1.2 协方差矩阵的几何意义：等概率面的参数解析

我们观察概率密度的指数项，它正好是一个二次型： $-\frac{1}{2} \boldsymbol{x}^T \Sigma^{-1} \boldsymbol{x}$ 。这意味着，概率密度的等高线，也就是等概率面，正好就是这个二次型的等高线，也就是一个椭球。这个椭球的主轴方向，就是协方差矩阵 $\Sigma$ 的特征向量的方向，而半轴长度则是 $\sigma_i = \sqrt{\lambda_i}$ ，其中 $\lambda_i$ 是 $\Sigma$ 的特征值。换句话说，协方差矩阵 $\Sigma$ 的几何意义，就是描述了数据分布的形状：特征向量告诉我们数据分布的主要方向，特征值告诉我们在这个方向上数据的分散程度。比如，如果 $\Sigma$ 是单位矩阵，那么等概率面就是单位球，数据是各向同性的；如果 $\Sigma$ 的某个特征值很大，说明数据在对应的特征向量方向上非常分散，反之则很集中。

3.1.3 马氏距离的几何本质

马氏距离是衡量一个点 $\boldsymbol{x}$ 到分布均值的距离，它的定义是 $d_M(\boldsymbol{x}) = \sqrt{\boldsymbol{x}^T \Sigma^{-1} \boldsymbol{x}}$ 。从几何的角度来看，马氏距离的本质，是把数据空间经过白化变换之后的欧氏距离。具体来说，我们对协方差矩阵做正交对角化 $\Sigma = Q \Lambda Q^T$ ，那么白化变换就是 $\boldsymbol{w} = \Lambda^{-1/2} Q^T \boldsymbol{x}$ ，这个变换把原来的协方差矩阵 $\Sigma$ 变成了单位矩阵，把原来的椭球形的分布变成了各向同性的球形分布。而马氏距离，就是变换后的 $\boldsymbol{w}$ 的欧氏距离 $||\boldsymbol{w}||$ 。换句话说，马氏距离消除了数据分布的尺度和相关性的影响，它衡量的是点在分布的标准化空间中的相对位置，这也是为什么马氏距离比欧氏距离更适合用来衡量异常点的原因：它考虑了数据本身的分布形态。

下面的动态可视化对比了欧氏距离和马氏距离：P1 的欧氏距离更小，但马氏距离更小，说明它更靠近分布中心；P2 的欧氏距离更大，但马氏距离更大，说明它是异常点。（请用鼠标拖拽 P1 和 P2 节点，观察距离度量的实时变化！）

3.2 主成分分析（PCA）的几何原理

3.2.1 PCA 的优化目标与数学推导

主成分分析是最常用的降维方法之一，它的优化目标是：找到一组正交的方向，使得数据在这些方向上的投影的方差最大，同时最小化投影的重构误差。从数学上来说，我们要找到前 $k$ 个正交的单位向量 $\boldsymbol{v}_1,...,\boldsymbol{v}_k$ ，使得最大化 $\sum \text{Var}(\boldsymbol{x}^T \boldsymbol{v}_i)$ ，也就是最大化数据在这些方向上的方差。

3.2.2 主成分与协方差矩阵特征值、特征向量的对应关系

我们可以证明，这个优化问题的解，正好就是协方差矩阵 $\Sigma$ 的前 $k$ 个最大的特征值对应的特征向量。这是因为，数据在方向 $\boldsymbol{v}$ 上的投影的方差，正好就是 $\boldsymbol{v}^T \Sigma \boldsymbol{v}$ ，而根据我们之前对二次型的分析，这个二次型在单位球面上的最大值，就是 $\Sigma$ 的最大特征值，对应的 $\boldsymbol{v}$ 就是对应的特征向量。接下来，我们在和 $\boldsymbol{v}$ 正交的子空间里找下一个最大值，就是第二大的特征值和对应的特征向量，以此类推。这意味着，主成分的方向，就是数据分布的协方差矩阵的特征向量的方向，而主成分的方差，就是对应的特征值。

3.2.3 降维过程与信息保留的几何解释

降维的过程，就是把数据投影到前 $k$ 个主成分构成的子空间上。从几何的角度来看，这个过程相当于，我们把原来的椭球形的数据分布，旋转到主轴对齐的坐标系下，然后把后面那些方差很小的坐标轴扔掉，只保留前面方差大的坐标轴。这样，我们就用更少的维度，保留了数据中大部分的方差，也就是大部分的信息。下面的可视化展示了这个过程：灰色的点是原始的二维数据，蓝色的线是第一主成分的方向，蓝色的点是投影到第一主成分之后的降维结果，灰色的虚线是每个点的投影线。我们可以看到，投影之后，数据的大部分方差都被保留了下来。

这里有一个更直观的 PCA 降维交互画板。它允许你手动旋转投影基底（紫线），尝试寻找能让红点最分散（投影方差最大）的那个神奇角度。你会发现，当紫线与第一主成分重合时，方差确实达到了最大值。

第 4 章一般方阵的特征分解及其局限性

4.1 方阵的特征分解与可对角化条件

4.1.1 特征值与特征向量的代数定义

对于一般的方阵 $A$ ，特征值和特征向量的定义是： $A \boldsymbol{v} = \lambda \boldsymbol{v}$ 。也就是说，向量 $\boldsymbol{v}$ 经过线性变换 $A$ 之后，方向没有发生改变，只是长度被缩放了 $\lambda$ 倍，这个 $\boldsymbol{v}$ 就是特征向量， $\lambda$ 就是对应的特征值。

4.1.2 特征向量的几何意义：线性变换下的不变方向

不管是对称矩阵还是一般矩阵，特征向量的几何意义都是一样的：它是线性变换下的不变子空间（一条穿过原点的直线），在这个一维空间上，向量仅发生缩放或反向（当特征值为负时翻转 180°），但绝不会偏离这条直线。这就是特征向量最核心的几何本质，不管矩阵是什么样的，这个性质都成立。

下面的动态可视化展示了特征向量的不变方向：当向量旋转时，只有特征向量的方向在变换后保持不变，其他向量的方向都会发生改变。

4.1.3 方阵可对角化的充要条件

如果一个方阵 $A$ 有 $n$ 个线性无关的特征向量，那么我们就可以把 $A$ 分解为 $A = P \Lambda P^{-1}$ ，其中 $P$ 的列是特征向量， $\Lambda$ 是对角矩阵，对角元是特征值，这个分解就是特征分解。而方阵可对角化的充要条件，就是它有 $n$ 个线性无关的特征向量，换句话说，所有特征值的几何重数等于代数重数。

4.1.4 特征分解的标准代数形式

特征分解的标准形式是 $A = P \Lambda P^{-1}$ ，和实对称矩阵的正交对角化不同，这里的 $P$ 不是正交矩阵，它的列向量是线性无关的，但不一定正交， $P$ 的逆也不是 $P$ 的转置。

4.2 一般可对角化方阵的几何图景

4.2.1 斜交基下的线性变换：剪切效应的产生

对于一般的可对角化方阵，它的特征向量不一定是正交的，这意味着，我们用来分解变换的基是斜交的，不是正交的。这时候，线性变换除了缩放之外，还可能产生剪切效应，也就是空间被沿着某个方向拉伸的同时，发生了切变。最典型的例子就是剪切变换，比如矩阵 $A=\begin{bmatrix}1&1\\0&1\end{bmatrix}$ ，这个变换会把 $x$ 坐标加上 $y$ 坐标， $y$ 坐标不变，它会把正方形变成平行四边形，这就是剪切效应。下面的可视化展示了这个剪切变换的效果：

4.2.2 斜交基下的解耦：一般可对角化方阵的物理意义

对于一般可对角化矩阵，其特征向量虽然线性无关，但通常不再两两正交（即构成斜交基）。在这种情形下，特征向量依然保持了“线性变换下方向不变”的核心几何属性，但在物理或动力系统中，斜交的特征基意味着系统在标准坐标系下存在强烈的“耦合”。

当我们通过 $A = P \Lambda P^{-1}$ 进行特征分解时，本质上是在寻找一个特定的斜交坐标系（由 $P$ 的列向量构成）。在这个斜交坐标系下观察，原本相互纠缠、相互影响的变换过程，被完美地“解耦”成了各个特征方向上的独立缩放（由 $\Lambda$ 描述）。这在深度学习的循环神经网络（RNN）状态转移、或马尔可夫链中意义重大：特征向量指明了系统中独立演化的“隐藏模态”，而特征值决定了这些模态随着时间推移是衰减、发散还是保持振荡。只是与实对称矩阵不同，这个用来解耦的“观察视角”本身是倾斜的。

4.3 特征分解的固有局限性

4.3.1 非对称方阵的特征值与实际拉伸能力的偏离

对于非对称的方阵，特征值虽然描述了特征方向上的缩放，但它并不能描述变换的最大拉伸能力。因为非对称矩阵的变换存在剪切效应，最大的拉伸可能出现在不是特征向量的方向上。比如，剪切变换的特征值都是 1，但是它的最大拉伸能力可以远大于 1，比如向量 $(0,1)$ 经过变换之后变成了 $(1,1)$ ，长度变成了 $\sqrt{2}$ ，比 1 大，这说明特征值已经不能准确描述变换的拉伸能力了。

下面的交互画板展示了这一现象：请用鼠标拖拽蓝色点 x 沿单位圆转动，观察 $||A\boldsymbol{x}||$ 的实时变化，亲自寻找最大拉伸方向——它绝不在特征向量（x 轴）上！

画板同时展示了 特征向量（橙色，不变方向）与右奇异向量（紫色，真实最大/最小拉伸方向） 的差异：对非对称矩阵而言，这两组方向并不重合，奇异向量才能准确刻画变换的拉伸能力。

4.3.2 亏损矩阵的不可对角化问题

更严重的是，有些矩阵根本就没有 $n$ 个线性无关的特征向量，比如我们之前的剪切变换矩阵，它的特征值都是 1，但是只有一个线性无关的特征向量，也就是 $x$ 轴方向。这样的矩阵叫做亏损矩阵，它根本就不能进行特征分解，因为我们找不到足够的特征向量来构成基。这意味着，特征分解对于这类矩阵是完全失效的。

下面的交互画板通过引入一个极小量 $\epsilon$（在代码中用字母 $e$ 表示滑块），动态展示两个原本分离的特征向量如何随着 $\epsilon \to 0$ 最终合二为一，造成空间降维。

4.3.3 非方阵场景下特征分解的失效

除此之外，特征分解只能对方阵进行，对于非方阵，比如 $m \times n$ 的矩阵， $m \neq n$ ，特征分解根本就没有定义，因为非方阵没法定义特征值和特征向量。但是在实际应用中，我们经常会遇到非方阵，比如数据的样本数和维度不一样，这时候特征分解就完全用不了了。这些局限性，都催生了更通用的矩阵分解方法，也就是奇异值分解，它可以处理任意的矩阵，不管是不是方阵，是不是可对角化。

第 5 章奇异值分解：任意矩阵的通用几何分解

5.1 奇异值分解的标准形式与基本性质

5.1.1 任意矩阵奇异值分解的存在性与标准形式

奇异值分解（SVD）是矩阵的一种通用分解，它说的是，对于任意的 $m \times n$ 矩阵 $A$ ，我们都可以把它分解为：

其中， $U$ 是 $m \times m$ 的正交矩阵， $V$ 是 $n \times n$ 的正交矩阵， $\Sigma$ 是 $m \times n$ 的对角矩阵，它的对角元 $\sigma_1 \geq \sigma_2 \geq ... \geq \sigma_k > 0$ ，其他元素都是 0。这个分解对于任意的矩阵都存在，不管 $A$ 是不是方阵，是不是满秩，是不是可对角化，都可以做 SVD。

5.1.2 左奇异向量、右奇异向量与奇异值的定义

这里的 $\sigma_i$ 就是奇异值，它们都是非负的实数， $U$ 的列向量叫做左奇异向量， $V$ 的列向量叫做右奇异向量。我们可以看到，右奇异向量是 $A^T A$ 的特征向量，左奇异向量是 $A A^T$ 的特征向量，而奇异值是 $A^T A$ 的特征值的平方根，也就是 $\sigma_i=\sqrt{\lambda_i(A^T A)}$ 。

5.1.3 奇异值分解的核心代数性质

奇异值分解有很多优秀的代数性质，比如，它的奇异值是唯一的，左奇异向量和右奇异向量在对应奇异值不同的情况下是唯一的。而且，前 $k$ 个奇异值和对应的奇异向量，给出了矩阵 $A$ 的最优的秩 $k$ 近似，也就是在所有秩为 $k$ 的矩阵中，前 $k$ 项的 SVD 近似和 $A$ 的 Frobenius 范数的误差最小，这就是 Eckart-Young-Mirsky 定理，这个性质是很多应用的基础。

5.2 奇异值分解的几何拆解

5.2.1 线性变换的三步正交分解：旋转 - 缩放 - 旋转

SVD 最核心的几何意义，就是它把任意的线性变换，拆解成了三个简单的变换的组合：

首先是 $V^T$ 对应的正交变换，也就是旋转或者反射，它把输入的坐标系旋转到右奇异向量的坐标系下；
然后是 $\Sigma$ 对应的缩放变换，它把各个坐标轴按照奇异值 $\sigma_i$ 进行缩放，同时把维度从 $n$ 映射到 $m$ ，多余的维度直接丢弃，或者补零；
最后是 $U$ 对应的正交变换，也就是旋转或者反射，它把输出的坐标系旋转到左奇异向量的坐标系下。这三个步骤里， $V^T$ 和 $U$ 都是正交变换，它们不会改变向量的长度，也不会改变空间的形状，只是旋转坐标系，只有中间的 $\Sigma$ 是缩放变换，它负责拉伸或者压缩空间。这意味着，任意的线性变换，不管多复杂，都可以拆解成 “旋转 - 缩放 - 旋转” 这三个简单的步骤，这是一个非常漂亮的结论。下面的动态可视化展示了这个过程，我们用一个非对称的矩阵 $A=\begin{bmatrix}2&1\\0&1\end{bmatrix}$ 来举例，通过时间演化动态演示单位圆经过这三步连续变换后，最终变为了椭圆的过程：

5.2.2 奇异值与线性变换最大拉伸能力的对应关系

奇异值的几何意义，就是线性变换在各个正交方向上的拉伸能力。最大的奇异值 $\sigma_1$ ，就是线性变换的最大拉伸能力，也就是对于所有单位向量 $\boldsymbol{x}$ ， $||A \boldsymbol{x}||$ 的最大值，正好就是 $\sigma_1$ 。而最小的奇异值 $\sigma_n$ ，就是最小的拉伸能力，也就是 $||A \boldsymbol{x}||$ 的最小值。这和特征值不同，奇异值准确地描述了变换在所有方向上的拉伸能力，不管矩阵是不是对称的，是不是可对角化，这个结论都成立。比如，我们之前的剪切变换，它的特征值都是 1，但是它的奇异值分别是 $\sqrt{\frac{3+\sqrt{5}}{2}} \approx 1.618$ 和 $\sqrt{\frac{3-\sqrt{5}}{2}} \approx 0.618$ ，这正好描述了它的最大和最小拉伸能力，比特征值准确得多。

下面的动态可视化展示了奇异值的最大拉伸能力：当向量旋转时，||Ax|| 的最大值正好是最大奇异值，最小值是最小奇异值。

5.3 奇异值分解对核心概念的统一解释

5.3.1 实对称矩阵的奇异值分解与正交对角化的关联

对于正定的实对称矩阵，它的 SVD 其实就是正交对角化。因为 $A=Q \Lambda Q^T$ ，这里 $U=Q$ ， $V=Q$ ， $\Sigma=\Lambda$ ，所以奇异值就等于特征值，左奇异向量和右奇异向量都等于特征向量。这说明，正交对角化其实就是 SVD 的一个特例，SVD 把它推广到了任意的矩阵。

5.3.2 协方差矩阵的奇异值分解与主成分分析的对应

对于协方差矩阵 $\Sigma$ ，它是半正定的实对称矩阵，所以它的 SVD 就是它的正交对角化，而主成分分析的主成分，就是它的右奇异向量，主成分的方差就是奇异值。这也说明，PCA 其实就是 SVD 在协方差矩阵上的应用，我们甚至可以直接对数据矩阵做 SVD，来得到 PCA 的结果，这就是为什么很多 PCA 的实现都是用 SVD 来做的，因为它更稳定。

下面的动态可视化展示了 PCA 的累计方差解释率：随着我们保留的主成分越来越多，累计的方差解释率逐渐上升，最终达到 100%。

保留的主成分数量	特征值	累计方差解释率
1	2.207	73.6%
2	0.793	100.0%

5.3.3 行列式、迹与奇异值的内在关联

对于方阵，行列式的绝对值等于所有奇异值的乘积， $|\det(A)|=\prod \sigma_i$ 。这是因为， $\det(A)=\det(U)\det(\Sigma)\det(V^T)$ ，而 $U$ 和 $V$ 都是正交矩阵，它们的行列式的绝对值是 1，所以 $|\det(A)|=\det(\Sigma)=\prod \sigma_i$ ，这正好就是体积的缩放因子，和我们之前的几何意义一致。而迹呢，对于半正定矩阵，迹等于奇异值的和，对于一般的矩阵，迹和奇异值的关系没有这么直接，不过我们有 von Neumann 迹不等式， $|\text{tr}(A B)| \leq \sum \sigma_i(A) \sigma_i(B)$ ，这个不等式在很多优化问题中都有应用。

5.4 Moore-Penrose 伪逆

5.4.1 伪逆的代数定义与核心性质

对于不可逆的矩阵，或者非方阵，我们没法定义普通的逆矩阵，但是我们可以定义 Moore-Penrose 伪逆，它是普通逆矩阵的推广，对于任意的 $m \times n$ 矩阵 $A$ ，它的伪逆 $A^+$ 是一个 $n \times m$ 的矩阵，满足四个 Moore-Penrose 条件： $A A^+ A = A$ ， $A^+ A A^+ = A^+$ ， $(A A^+)^T = A A^+$ ， $(A^+ A)^T = A^+ A$ 。

5.4.2 基于奇异值分解的伪逆构造方法

基于 SVD，我们可以很容易地构造伪逆：如果 $A=U \Sigma V^T$ ，那么 $A^+ = V \Sigma^+ U^T$ ，其中 $\Sigma^+$ 就是把 $\Sigma$ 的对角元取倒数，然后转置。也就是说，对于每个非零的奇异值 $\sigma_i$ ，我们把它变成 $1/\sigma_i$ ，零的奇异值还是零。这个构造方法非常简单，而且不管 $A$ 是不是满秩，是不是方阵，都可以用。

5.4.3 伪逆的几何直观：不可逆 / 非方阵变换的最优近似逆

伪逆的几何意义，就是线性变换的最优近似逆。对于一个线性变换 $A$ ，如果它是可逆的，那么伪逆就是普通的逆，我们可以通过 $A^+$ 把变换后的向量还原回去。如果 $A$ 是不可逆的，或者是非方阵，那么 $A$ 把输入空间映射到了输出空间的一个子空间里，这时候，伪逆做的事情就是，把输出空间中的向量，先投影到 $A$ 的值域上，然后再把它映射回输入空间，使得重构的误差最小。换句话说，伪逆给出了在最小二乘意义下的最优逆变换，它可以让我们在即使变换不可逆的情况下，找到最接近的逆变换。

下面的交互画板以二维为例，直观展示伪逆的"最优投影"本质：矩阵 $A = \begin{bmatrix}1\\1\end{bmatrix}$（将一维标量 $t$ 映射为二维空间中的斜线 $y=x$ 上的点），拖拽紫色目标点 $\boldsymbol{b}$，观察伪逆 $A^+$ 如何将其垂直投影到 $A$ 的值域（橙色直线）上，得到最小二乘解 $x^* = A^+\boldsymbol{b}$。

5.4.4 伪逆与最小二乘问题的最优解

最小二乘问题的最优解，正好就是 $\boldsymbol{x}=A^+ \boldsymbol{b}$ 。这是因为，最小二乘问题是要最小化 $||A \boldsymbol{x} - \boldsymbol{b}||^2$ ，它的解就是 $\boldsymbol{x}=(A^T A)^{-1} A^T \boldsymbol{b}$ ，而这个正好就是 $A$ 的伪逆，所以伪逆直接给出了最小二乘问题的解，这也是伪逆在统计和机器学习中最常用的场景。

第 6 章核心概念的深度学习应用拓展

6.1 线性变换与全连接层的前向传播

6.1.1 全连接层的矩阵乘法本质

深度学习中的全连接层，它的前向传播过程，本质上就是一个线性变换加上一个偏置，也就是 $\boldsymbol{y} = W \boldsymbol{x} + \boldsymbol{b}$ 。这里的权重矩阵 $W$ ，就是线性变换的矩阵，输入 $\boldsymbol{x}$ 是向量，输出 $\boldsymbol{y}$ 是变换后的向量。所以，全连接层的本质，就是我们之前讨论的线性变换，所有我们之前讲的线性变换的几何性质，都可以用来分析全连接层的行为。

6.1.2 权重矩阵的变换特性对信号传播的影响

权重矩阵的奇异值，直接决定了信号在网络中的传播情况。如果权重矩阵的最大奇异值太大，那么信号就会被不断放大，导致梯度爆炸；如果最小奇异值太小，信号就会被压缩，导致梯度消失。这就是为什么归一化的权重初始化很重要，比如 Xavier 初始化，它的目标就是让权重矩阵的奇异值大概在 1 附近，这样信号的尺度在传播过程中不会发生太大的变化，保证了训练的稳定性。

6.2 行列式与迹的深度学习应用

6.2.1 行列式在概率生成模型中的应用：流模型与多元高斯分布归一化

在基于流的生成模型（Normalizing Flows）中，我们需要计算变量变换后的概率密度，根据概率的变换规则， $p_y(y) = p_x(x) * |\det(dx/dy)|$ ，这里的雅克比矩阵的行列式的绝对值，就是我们之前讲的体积缩放因子。流模型通过可逆的变换把简单的分布转换成复杂的分布，而计算概率密度的时候，就需要用到雅克比矩阵的行列式，这正好就是我们之前讲的行列式的几何意义：它描述了变量变换的时候，概率密度的缩放比例。

6.2.2 迹在正则化与模型优化中的应用：权重衰减与梯度状态监控

迹在深度学习中有很多应用，首先，权重衰减（L2 正则化），它的损失项是 $||W||_F^2=\text{tr}(W^T W)$ ，我们可以用迹来简洁地表示这个正则项，而且在计算梯度的时候，迹的循环不变性可以帮我们简化梯度的计算。另外，迹还可以用来监控梯度的状态，比如，我们可以计算海森矩阵的迹，来衡量函数的平滑程度，或者用来检测梯度的消失和爆炸。需要注意的是，自然梯度法（Natural Gradient Descent）等高级优化算法调整更新方向使用的是 Fisher 信息矩阵的逆（$F^{-1}$），以适应参数空间的黎曼几何结构，而不是使用迹。

6.3 特征分解与奇异值分解的深度学习应用

6.3.1 基于奇异值分解的模型压缩与低秩适配

深度学习模型的权重矩阵，通常都是低秩的，或者说，大部分的信息都集中在大的奇异值上，小的奇异值只包含了很少的信息。所以，我们可以用 SVD 对权重矩阵做低秩近似，只保留前 $k$ 个大的奇异值，这样就可以把原来的 $m \times n$ 的权重矩阵，分解成两个小的矩阵 $m \times k$ 和 $k \times n$ ，大大减少参数的数量，实现模型压缩。而最近非常火的低秩适配（LoRA），也是基于这个思想，它在微调大模型的时候，不对原来的权重做更新，而是用两个低秩矩阵来模拟权重的更新，这样就可以用很少的参数来微调大模型，效果和全微调差不多，这就是低秩近似的应用。

下面的动态可视化展示了低秩近似的误差：随着我们保留的奇异值越来越多，近似的误差逐渐下降，最终收敛到 0。

保留的奇异值数量 $k$	近似误差 ($\\|A - A_k\\|_F^2$)
1	0.63
2	0.00

6.3.2 高维特征降维与模型可解释性分析

在深度学习中，我们经常会得到高维的特征，比如 CNN 提取的图像特征，或者 Transformer 提取的文本特征，这些特征的维度非常高，我们没法直接可视化。这时候，我们就可以用 PCA，也就是基于 SVD 的降维方法，把高维的特征降到二维或者三维，这样我们就可以可视化特征的分布，分析模型的行为。另外，我们还可以用 SVD 来分析权重矩阵的主成分，找到模型关注的最重要的特征方向，来提升模型的可解释性。

6.3.3 矩阵补全与协同过滤推荐系统

在推荐系统中，我们有一个用户 - 物品的评分矩阵，但是大部分的元素都是缺失的，因为用户只会给很少的物品打分。此时，我们可以用矩阵补全来填充这些缺失的元素。需要注意的是，严格的代数 SVD 要求矩阵必须是稠密的，无法直接处理缺失值（NaN）。推荐系统中大名鼎鼎的“SVD”（实际上是 Funk SVD 或交替最小二乘法 ALS）借用了低秩近似的几何思想。它并不执行严格的矩阵分解，而是通过梯度下降，仅在已知的评分数据上最小化重构误差，从而学习出用户的隐藏因子和物品的隐藏因子。这展现了 SVD 的几何思想在最优化领域的灵活变体。

6.4 伪逆的深度学习应用

6.4.1 线性回归求解与权重初始化

伪逆最基础的应用就是线性回归的求解，我们之前说过，最小二乘的解就是 $\boldsymbol{x}=A^+ \boldsymbol{b}$ ，这个可以用来直接求解线性回归的权重，不需要迭代。然而在现代深度学习中，全连接层绝不使用伪逆来初始化权重，而是普遍采用打破对称性且维持方差稳定的随机初始化（如 Xavier 或 Kaiming 初始化）。利用伪逆逐层精确拟合前一层输出是早期“极限学习机”（ELM）或某些古老的逐层贪婪预训练的做法，已脱离现代深度学习的主流实践。

6.4.2 逆变换求解与计算机视觉三维重建任务

在计算机视觉的三维重建任务中，我们需要从二维的图像投影，恢复出三维的空间点，这个过程本质上就是一个逆变换的问题。相机的投影矩阵是一个 $3 \times 4$ 的非方阵，它是不可逆的，但是我们可以用它的伪逆，来求解最优的三维点，最小化重投影误差，这就是伪逆在三维重建中的典型应用。

附录

附录 A 核心概念对照表

概念	代数定义	几何意义	核心性质	典型应用
线性变换	$T(\boldsymbol{x}+\boldsymbol{y})=T(\boldsymbol{x})+T(\boldsymbol{y}), T(k\boldsymbol{x})=kT(\boldsymbol{x})$	保持线性结构的空间变换	可加、齐次	全连接层、卷积层
矩阵乘法	$A \boldsymbol{x}$	线性变换对向量的作用	复合变换对应矩阵乘法	神经网络前向传播
行列式	$\det(A)$	超体积缩放因子	$\det(AB)=\det(A)\det(B)$	流模型概率归一化
迹	$\text{tr}(A)=\sum A_{ii}$	平均拉伸能力	$\text{tr}(ABC)=\text{tr}(BCA)$	正则化、梯度计算
特征值 / 特征向量	$A \boldsymbol{v}=\lambda \boldsymbol{v}$	变换下的不变方向与缩放	$\text{tr}(A)=\sum\lambda_i, \det(A)=\prod\lambda_i$	二次型优化、PCA
正交对角化	$A=Q\Lambda Q^T$	正交基下的独立缩放	特征向量正交	二次型、高斯分布
奇异值分解	$A=U\Sigma V^T$	旋转 - 缩放 - 旋转的通用分解	对任意矩阵存在	模型压缩、降维
伪逆	$A^+=V\Sigma^+ U^T$	最优近似逆变换	最小二乘解	线性回归、三维重建

附录 B 常用线性代数公式汇总

矩阵乘法： $(AB)_{ij} = \sum_k A_{ik} B_{kj}$
行列式性质： $\det(A^T)=\det(A)$ , $\det(AB)=\det(A)\det(B)$ , $\det(kA)=k^n \det(A)$
迹的性质： $\text{tr}(A+B)=\text{tr}(A)+\text{tr}(B)$ , $\text{tr}(A^T)=\text{tr}(A)$ , $\text{tr}(ABC)=\text{tr}(BCA)$
正交对角化：对于实对称矩阵 $A$ ， $A=Q\Lambda Q^T$ ， $Q^T Q=I$
奇异值分解：对于任意矩阵 $A$ ， $A=U\Sigma V^T$ ， $U^T U=I$ , $V^T V=I$
伪逆公式： $A^+ = \lim_{\epsilon \to 0} (A^T A + \epsilon I)^{-1} A^T$
最小二乘解： $\boldsymbol{x}=(A^T A)^{-1} A^T \boldsymbol{b} = A^+ \boldsymbol{b}$

前置说明#

1. 受众与预备知识#

2. 核心目标#

3. 逻辑脉络#

4. 符号说明#

正文章节#

第 1 章 线性变换与实对称矩阵的基础几何#

1.1 线性变换与矩阵乘法的几何本质#

1.1.1 线性变换的定义与基本性质#

1.1.2 二维线性变换对单位圆的映射规律#

1.1.3 标准基向量在线性变换下的映射#

1.2 二次型的几何直观#

1.2.1 二次型的定义与标准形式#

1.2.2 二次型对应的标量场与等高线特征#

1.2.3 二次型极值点与特征向量、特征值的对应关系#

1.3 实对称矩阵的正交对角化#

1.3.1 实对称矩阵特征值与特征向量的核心性质#

1.3.2 正交对角化的几何意义：正交基下的独立缩放#

1.3.3 二次型等高线椭圆的几何参数解析#

第 2 章 方阵核心数值属性的几何意义#

2.1 行列式#

2.1.1 行列式的代数定义与基本运算性质#

2.1.2 二维情形：线性变换的面积缩放因子与定向变换#

2.1.3 高维情形：超体积缩放的几何本质#

2.1.4 行列式与特征值的代数关联#

2.2 迹#

2.2.1 迹的代数定义与循环不变性#

2.2.2 迹的几何直观：线性变换的平均拉伸能力#

2.2.3 迹与特征值、奇异值的代数关联#

2.2.4 迹与矩阵范数的内在联系#

第 3 章 实对称矩阵在统计建模中的应用#

3.1 多元高斯分布的几何解析#

3.1.1 零均值多元高斯分布的概率密度函数#

3.1.2 协方差矩阵的几何意义：等概率面的参数解析#

3.1.3 马氏距离的几何本质#

3.2 主成分分析（PCA）的几何原理#

3.2.1 PCA 的优化目标与数学推导#

3.2.2 主成分与协方差矩阵特征值、特征向量的对应关系#

3.2.3 降维过程与信息保留的几何解释#

第 4 章 一般方阵的特征分解及其局限性#

4.1 方阵的特征分解与可对角化条件#

4.1.1 特征值与特征向量的代数定义#

4.1.2 特征向量的几何意义：线性变换下的不变方向#

4.1.3 方阵可对角化的充要条件#

4.1.4 特征分解的标准代数形式#

4.2 一般可对角化方阵的几何图景#

4.2.1 斜交基下的线性变换：剪切效应的产生#

4.2.2 斜交基下的解耦：一般可对角化方阵的物理意义#

4.3 特征分解的固有局限性#

4.3.1 非对称方阵的特征值与实际拉伸能力的偏离#

4.3.2 亏损矩阵的不可对角化问题#

4.3.3 非方阵场景下特征分解的失效#

第 5 章 奇异值分解：任意矩阵的通用几何分解#

5.1 奇异值分解的标准形式与基本性质#

5.1.1 任意矩阵奇异值分解的存在性与标准形式#

5.1.2 左奇异向量、右奇异向量与奇异值的定义#

5.1.3 奇异值分解的核心代数性质#

5.2 奇异值分解的几何拆解#

5.2.1 线性变换的三步正交分解：旋转 - 缩放 - 旋转#

5.2.2 奇异值与线性变换最大拉伸能力的对应关系#

5.3 奇异值分解对核心概念的统一解释#

5.3.1 实对称矩阵的奇异值分解与正交对角化的关联#

5.3.2 协方差矩阵的奇异值分解与主成分分析的对应#

5.3.3 行列式、迹与奇异值的内在关联#

5.4 Moore-Penrose 伪逆#

5.4.1 伪逆的代数定义与核心性质#

5.4.2 基于奇异值分解的伪逆构造方法#

5.4.3 伪逆的几何直观：不可逆 / 非方阵变换的最优近似逆#

5.4.4 伪逆与最小二乘问题的最优解#

第 6 章 核心概念的深度学习应用拓展#

6.1 线性变换与全连接层的前向传播#

6.1.1 全连接层的矩阵乘法本质#

6.1.2 权重矩阵的变换特性对信号传播的影响#

6.2 行列式与迹的深度学习应用#

6.2.1 行列式在概率生成模型中的应用：流模型与多元高斯分布归一化#

6.2.2 迹在正则化与模型优化中的应用：权重衰减与梯度状态监控#

6.3 特征分解与奇异值分解的深度学习应用#

6.3.1 基于奇异值分解的模型压缩与低秩适配#

6.3.2 高维特征降维与模型可解释性分析#

6.3.3 矩阵补全与协同过滤推荐系统#