前置说明
1. 受众与预备知识
本文面向具备基础线性代数运算能力,从事机器学习、深度学习相关工作的研究者、工程师,以及希望深入理解矩阵运算几何本质的学习者。要求读者掌握矩阵乘法、行列式、特征值的基础代数定义,无需额外的高阶数学基础。
2. 核心目标
以几何直观为核心线索,构建线性代数核心概念的完整逻辑闭环,厘清概念间的内在关联,建立代数定义与几何本质的对应关系,并明确各概念在深度学习中的典型应用场景与底层逻辑。
3. 逻辑脉络
本文遵循「基础定义→特殊情形→一般规律→局限突破→应用落地」的认知递进路径,从最规整的线性变换建立基准几何直觉,逐步拓展至任意矩阵的通用分解,最终统一所有核心概念的几何逻辑,并落地到深度学习的典型场景。
4. 符号说明
本文采用线性代数通用规范符号,矩阵用大写黑体字母表示,向量用小写黑体字母表示,标量用斜体字母表示,正交矩阵、对角矩阵有专属规范标记,全文符号统一。
正文章节
第 1 章 线性变换与实对称矩阵的基础几何
1.1 线性变换与矩阵乘法的几何本质
1.1.1 线性变换的定义与基本性质
线性变换是线性代数的核心研究对象,它满足两个核心性质:可加性 $T(\boldsymbol{x}+\boldsymbol{y})=T(\boldsymbol{x})+T(\boldsymbol{y})$ 与齐次性 $T(k\boldsymbol{x})=kT(\boldsymbol{x})$ 。这两个性质保证了变换不会改变向量空间的线性结构,换句话说,变换后的直线仍然是直线,原点保持固定,不会发生扭曲或平移。对于任意的线性变换,我们都可以用一个矩阵来唯一描述它:在标准正交基下,变换后的基向量恰好构成了矩阵的列向量,这就是矩阵乘法的几何本质 —— 矩阵乘以向量,本质上就是用这个线性变换对向量进行作用。
下面的动态可视化直观展示了线性变换的核心性质:直线上的点经过变换后,仍然保持在一条直线上,不会发生扭曲。
1.1.2 二维线性变换对单位圆的映射规律
为了直观理解线性变换的效果,我们可以观察二维平面上的单位圆在变换后的形态。由于线性变换的线性特性,单位圆上的所有点经过变换后,会被映射为一个椭圆。这个椭圆的长轴、短轴以及旋转角度,完整地刻画了这个线性变换的所有核心信息:它描述了变换在不同方向上的拉伸能力,以及整体的旋转效应。 下面的交互可视化展示了这一过程:灰色虚线是原始的单位圆,红色实线是变换后的椭圆,蓝色和绿色的箭头分别展示了标准基向量 $\boldsymbol{i}$ 、 $\boldsymbol{j}$ 在变换前后的位置。
1.1.3 标准基向量在线性变换下的映射
从上面的可视化中我们可以看到,标准基向量 $\boldsymbol{i}=(1,0)$ 和 $\boldsymbol{j}=(0,1)$ 经过变换后,分别变成了矩阵的列向量: $A\boldsymbol{i}$ 就是矩阵的第一列, $A\boldsymbol{j}$ 就是矩阵的第二列。这是因为,任意向量 $\boldsymbol{x}$ 都可以表示为标准基的线性组合 $\boldsymbol{x} = x_1 \boldsymbol{i} + x_2 \boldsymbol{j}$ ,根据线性变换的性质, $T(\boldsymbol{x}) = x_1 T(\boldsymbol{i}) + x_2 T(\boldsymbol{j})$ ,这正好就是矩阵乘法 $A \boldsymbol{x}$ 的计算过程。这也解释了为什么矩阵的列空间就是线性变换的值域:所有变换后的向量,都只是变换后的基向量的线性组合。
1.2 二次型的几何直观
1.2.1 二次型的定义与标准形式
二次型是实对称矩阵最常见的应用形式之一,它的代数定义是 $f(\boldsymbol{x}) = \boldsymbol{x}^T A \boldsymbol{x}$ ,其中 $A$ 是 $n$ 阶实对称矩阵, $\boldsymbol{x}$ 是 $n$ 维向量。展开来看,它是一个关于 $\boldsymbol{x}$ 的各个分量的二次齐次多项式,比如二维的情况下, $f(x_1,x_2) = a_{11} x_1^2 + 2a_{12} x_1 x_2 + a_{22} x_2^2$ 。二次型在优化问题、统计建模中非常常见,比如损失函数的二阶近似、概率密度的指数项,本质上都是二次型。
1.2.2 二次型对应的标量场与等高线特征
从几何的角度来看,二次型定义了一个 $n$ 维空间中的标量场:对于空间中的每个点 $\boldsymbol{x}$ ,我们都可以计算出一个标量值 $f(\boldsymbol{x})$ 。如果我们把 $f(\boldsymbol{x})$ 取固定值 $c$ ,就可以得到这个标量场的等高线。对于正定的实对称矩阵 $A$ 来说,这个等高线就是一个 $n$ 维的椭球,二维情况下就是我们之前看到的椭圆。 这个椭圆的形态完全由矩阵 $A$ 的特征值和特征向量决定:椭圆的主轴方向正好是 $A$ 的特征向量的方向,而椭圆的半轴长度则是 $\sqrt{c/\lambda_i}$ ,其中 $\lambda_i$ 是对应的特征值。这意味着,特征值越大,对应的半轴越短,也就是说,在这个方向上,二次型的函数值增长得越快。 下面的可视化展示了二次型 $f(\boldsymbol{x})=\boldsymbol{x}^T A \boldsymbol{x}=1$ 的等高线,以及对应的特征向量方向:
1.2.3 二次型极值点与特征向量、特征值的对应关系
当我们在单位球面上最大化二次型 $f(\boldsymbol{x})=\boldsymbol{x}^T A \boldsymbol{x}$ 时,我们会发现,最大值正好就是矩阵 $A$ 的最大特征值 $\lambda_1$ ,而取得最大值的点 $\boldsymbol{x}$ 就是对应的特征向量 $\boldsymbol{v}_1$ 。同理,最小值就是最小的特征值 $\lambda_n$ ,对应的点是最小特征值的特征向量。这是因为,在特征向量的方向上,二次型的增长速度是最快的,而在正交的方向上,增长速度则由对应的特征值决定。这也解释了为什么在优化问题中,海森矩阵的特征值决定了函数的曲率:特征值越大,函数在这个方向上弯曲得越厉害。
1.3 实对称矩阵的正交对角化
1.3.1 实对称矩阵特征值与特征向量的核心性质
实对称矩阵有两个非常重要的性质:第一,它的所有特征值都是实数;第二,不同特征值对应的特征向量是互相正交的。这两个性质是实对称矩阵区别于一般矩阵的核心特点,也是它在应用中如此广泛的原因。对于一般的矩阵,特征向量可能是斜交的,甚至可能不存在足够的特征向量,但实对称矩阵永远可以找到一组正交的单位特征向量,构成整个空间的一组标准正交基。
下面的动态可视化对比了实对称矩阵和非对称矩阵的特征向量:实对称矩阵的两个特征向量始终保持正交,而非对称矩阵的特征向量是斜交的。
1.3.2 正交对角化的几何意义:正交基下的独立缩放
基于上面的性质,我们可以把实对称矩阵分解为 $A = Q \Lambda Q^T$ ,其中 $Q$ 是正交矩阵,它的列是 $A$ 的单位特征向量, $\Lambda$ 是对角矩阵,对角元是对应的特征值。这个分解就是正交对角化。从几何的角度来看,这个分解描述了线性变换的过程:首先,我们通过 $Q^T$ 把标准坐标系旋转到特征向量的坐标系下,在这个新的坐标系下,原来的线性变换就变成了一个简单的缩放变换:每个坐标轴方向上,我们把坐标乘以对应的特征值 $\lambda_i$ ,最后再通过 $Q$ 把坐标系旋转回原来的标准坐标系。 换句话说,实对称矩阵对应的线性变换,本质上就是在一组正交基下的独立缩放,没有剪切、没有扭曲,只是在各个正交的方向上,按照不同的比例拉伸空间。这也解释了为什么单位圆经过实对称矩阵的变换后,得到的椭圆的主轴是正交的,因为这两个拉伸方向本身就是正交的。
1.3.3 二次型等高线椭圆的几何参数解析
结合正交对角化的结果,我们可以很容易地解释二次型等高线椭圆的参数。对于二次型 $\boldsymbol{x}^T A \boldsymbol{x} = c$ ,我们做变量替换 $\boldsymbol{y} = Q^T \boldsymbol{x}$ ,那么二次型就变成了 $\boldsymbol{y}^T \Lambda \boldsymbol{y} = \sum \lambda_i y_i^2 = c$ 。这在 $\boldsymbol{y}$ 的坐标系下,就是一个轴对齐的椭球,半轴长度是 $\sqrt{c/\lambda_i}$ 。而 $Q$ 是正交矩阵,对应坐标系的旋转,所以转换回 $\boldsymbol{x}$ 的坐标系,这个椭球就被旋转了 $Q$ 对应的角度,主轴方向就是 $Q$ 的列向量,也就是特征向量的方向,这和我们之前观察到的结果完全一致。
第 2 章 方阵核心数值属性的几何意义
2.1 行列式
2.1.1 行列式的代数定义与基本运算性质
行列式是方阵的一个标量属性,它的代数定义可以通过逆序数的全排列展开来描述,也可以通过高斯消元过程中的行变换来计算。它满足几个核心的运算性质: $\det(AB)=\det(A)\det(B)$ , $\det(A^T)=\det(A)$ ,如果 $A$ 有一行是其他行的线性组合,那么 $\det(A)=0$ 。这些代数性质背后,都有清晰的几何解释。
2.1.2 二维情形:线性变换的面积缩放因子与定向变换
在二维平面上,行列式的几何意义非常直观:它就是线性变换对空间面积的缩放因子。我们知道,标准基向量 $\boldsymbol{i}$ 和 $\boldsymbol{j}$ 构成的单位正方形,面积是 1。经过线性变换之后,这两个基向量变成了矩阵的列向量,它们构成的平行四边形的面积,正好就是矩阵的行列式。 比如,对于矩阵 $A=\begin{bmatrix}a&b\\c&d\end{bmatrix}$ ,这个平行四边形的面积就是 $ad-bc$ ,正好就是行列式的定义。如果行列式是正的,说明变换保持了空间的定向;如果是负的,说明变换发生了翻转,也就是镜像;如果行列式是 0,说明变换把二维空间压缩到了一维或者零维,面积变成了 0,这也对应了矩阵是奇异的,不可逆的。
下面的交互画板用滑块演示了行列式趋近于零时的空间坍缩:拖动滑块改变矩阵参数 $b$,当 $b=2$ 时 $\det(A)=0$,观察红色平行四边形如何压扁为一条线。
下面的动态可视化直观展示了行列式的几何意义:单位正方形经过线性变换后,变成了平行四边形,它的面积正好是原面积乘以矩阵的行列式。
2.1.3 高维情形:超体积缩放的几何本质
推广到高维,行列式的几何意义就是 $n$ 维空间中超体积的缩放因子。标准基向量构成的单位超立方体,体积是 1,经过线性变换之后,变成了一个平行多面体,它的体积就是矩阵的行列式。同样,行列式的符号代表了空间的定向,行列式为 0 意味着变换把高维空间压缩到了更低的维度,矩阵不可逆。
2.1.4 行列式与特征值的代数关联
从特征值的角度来看,行列式等于所有特征值的乘积。这也很容易从几何上理解:因为实对称矩阵的变换是在各个特征方向上的独立缩放,每个方向的缩放比例是 $\lambda_i$ ,那么整体的体积缩放比例就是所有缩放比例的乘积,也就是 $\lambda_1 \lambda_2 ... \lambda_n$ ,这正好就是行列式。对于一般的可对角化矩阵,这个结论同样成立,因为特征值就是各个特征方向上的缩放比例,体积的缩放就是它们的乘积。
2.2 迹
2.2.1 迹的代数定义与循环不变性
迹是方阵的另一个标量属性,它的代数定义是矩阵对角线元素的和, $\text{tr}(A)=\sum A_{ii}$ 。迹有一个非常重要的性质,就是循环不变性: $\text{tr}(ABC)=\text{tr}(BCA)=\text{tr}(CAB)$ ,这个性质在深度学习的梯度计算中非常常用,比如矩阵迹的导数,经常会用到这个性质来交换矩阵的顺序。
2.2.2 迹的几何直观:线性变换的平均拉伸能力
迹的几何意义,不仅是迹等于所有特征值的和,更代表了线性变换的“平均自身拉伸能力”。我们知道,对于任意的线性变换,它在不同的方向上的拉伸能力是不同的。换句话说,如果你随机取一个单位向量 $\boldsymbol{x}$,考察变换后的向量 $A\boldsymbol{x}$ 在原方向 $\boldsymbol{x}$ 上的投影长度(即 $\boldsymbol{x}^T A \boldsymbol{x}$),那么它的期望正好等于 $\text{tr}(A) / n$。这是因为迹等于所有特征方向上的拉伸系数的总和,反映了空间整体向外扩张的平均趋势。 比如,对于单位矩阵,迹就是 $n$,每个方向的投影拉伸都是 1,平均也是 1。对于实对称矩阵,迹就是各个正交拉伸方向的缩放比例的和,非常直观。
下面的交互画板展示了迹的几何直观:请用鼠标拖拽蓝色点 x 沿单位圆转动,观察红色向量 $A\boldsymbol{x}$ 在原方向 $\boldsymbol{x}$ 上的投影长度 $\boldsymbol{x}^T A\boldsymbol{x}$ 如何变化——理论平均值恰好等于 $\text{tr}(A)/2$。
2.2.3 迹与特征值、奇异值的代数关联
和行列式类似,迹也等于所有特征值的和, $\text{tr}(A)=\sum \lambda_i$ 。这个结论对于任意方阵都成立,不管是不是可对角化,这个等式都成立。而对于奇异值,迹和奇异值的关系则没有这么直接,不过对于半正定矩阵,奇异值就等于特征值,所以此时迹也等于奇异值的和。
2.2.4 迹与矩阵范数的内在联系
迹和矩阵的 Frobenius 范数有着非常紧密的联系,Frobenius 范数的平方 $||A||_F^2$ 正好等于 $\text{tr}(A^T A)$ 。这是因为, $A^T A$ 的对角线元素,就是 $A$ 的各个列向量的模长的平方,它们的和就是所有元素的平方和,也就是 Frobenius 范数的平方。这个性质在深度学习的正则化中非常常用,比如 L2 正则化,本质上就是对权重矩阵的 Frobenius 范数进行惩罚,而这可以通过迹来简洁地表示。
第 3 章 实对称矩阵在统计建模中的应用
3.1 多元高斯分布的几何解析
3.1.1 零均值多元高斯分布的概率密度函数
零均值的多元高斯分布,是统计建模中最基础的分布之一,它的概率密度函数是:
其中 $\Sigma$ 是协方差矩阵,它是一个正定的实对称矩阵。这个公式看起来很复杂,但从几何的角度来看,它的结构非常清晰。
3.1.2 协方差矩阵的几何意义:等概率面的参数解析
我们观察概率密度的指数项,它正好是一个二次型: $-\frac{1}{2} \boldsymbol{x}^T \Sigma^{-1} \boldsymbol{x}$ 。这意味着,概率密度的等高线,也就是等概率面,正好就是这个二次型的等高线,也就是一个椭球。这个椭球的主轴方向,就是协方差矩阵 $\Sigma$ 的特征向量的方向,而半轴长度则是 $\sigma_i = \sqrt{\lambda_i}$ ,其中 $\lambda_i$ 是 $\Sigma$ 的特征值。 换句话说,协方差矩阵 $\Sigma$ 的几何意义,就是描述了数据分布的形状:特征向量告诉我们数据分布的主要方向,特征值告诉我们在这个方向上数据的分散程度。比如,如果 $\Sigma$ 是单位矩阵,那么等概率面就是单位球,数据是各向同性的;如果 $\Sigma$ 的某个特征值很大,说明数据在对应的特征向量方向上非常分散,反之则很集中。
3.1.3 马氏距离的几何本质
马氏距离是衡量一个点 $\boldsymbol{x}$ 到分布均值的距离,它的定义是 $d_M(\boldsymbol{x}) = \sqrt{\boldsymbol{x}^T \Sigma^{-1} \boldsymbol{x}}$ 。从几何的角度来看,马氏距离的本质,是把数据空间经过白化变换之后的欧氏距离。具体来说,我们对协方差矩阵做正交对角化 $\Sigma = Q \Lambda Q^T$ ,那么白化变换就是 $\boldsymbol{w} = \Lambda^{-1/2} Q^T \boldsymbol{x}$ ,这个变换把原来的协方差矩阵 $\Sigma$ 变成了单位矩阵,把原来的椭球形的分布变成了各向同性的球形分布。而马氏距离,就是变换后的 $\boldsymbol{w}$ 的欧氏距离 $||\boldsymbol{w}||$ 。 换句话说,马氏距离消除了数据分布的尺度和相关性的影响,它衡量的是点在分布的标准化空间中的相对位置,这也是为什么马氏距离比欧氏距离更适合用来衡量异常点的原因:它考虑了数据本身的分布形态。
下面的动态可视化对比了欧氏距离和马氏距离:P1 的欧氏距离更小,但马氏距离更小,说明它更靠近分布中心;P2 的欧氏距离更大,但马氏距离更大,说明它是异常点。(请用鼠标拖拽 P1 和 P2 节点,观察距离度量的实时变化!)
3.2 主成分分析(PCA)的几何原理
3.2.1 PCA 的优化目标与数学推导
主成分分析是最常用的降维方法之一,它的优化目标是:找到一组正交的方向,使得数据在这些方向上的投影的方差最大,同时最小化投影的重构误差。从数学上来说,我们要找到前 $k$ 个正交的单位向量 $\boldsymbol{v}_1,...,\boldsymbol{v}_k$ ,使得最大化 $\sum \text{Var}(\boldsymbol{x}^T \boldsymbol{v}_i)$ ,也就是最大化数据在这些方向上的方差。
3.2.2 主成分与协方差矩阵特征值、特征向量的对应关系
我们可以证明,这个优化问题的解,正好就是协方差矩阵 $\Sigma$ 的前 $k$ 个最大的特征值对应的特征向量。这是因为,数据在方向 $\boldsymbol{v}$ 上的投影的方差,正好就是 $\boldsymbol{v}^T \Sigma \boldsymbol{v}$ ,而根据我们之前对二次型的分析,这个二次型在单位球面上的最大值,就是 $\Sigma$ 的最大特征值,对应的 $\boldsymbol{v}$ 就是对应的特征向量。接下来,我们在和 $\boldsymbol{v}$ 正交的子空间里找下一个最大值,就是第二大的特征值和对应的特征向量,以此类推。 这意味着,主成分的方向,就是数据分布的协方差矩阵的特征向量的方向,而主成分的方差,就是对应的特征值。
3.2.3 降维过程与信息保留的几何解释
降维的过程,就是把数据投影到前 $k$ 个主成分构成的子空间上。从几何的角度来看,这个过程相当于,我们把原来的椭球形的数据分布,旋转到主轴对齐的坐标系下,然后把后面那些方差很小的坐标轴扔掉,只保留前面方差大的坐标轴。这样,我们就用更少的维度,保留了数据中大部分的方差,也就是大部分的信息。 下面的可视化展示了这个过程:灰色的点是原始的二维数据,蓝色的线是第一主成分的方向,蓝色的点是投影到第一主成分之后的降维结果,灰色的虚线是每个点的投影线。我们可以看到,投影之后,数据的大部分方差都被保留了下来。
这里有一个更直观的 PCA 降维交互画板。它允许你手动旋转投影基底(紫线),尝试寻找能让红点最分散(投影方差最大)的那个神奇角度。你会发现,当紫线与第一主成分重合时,方差确实达到了最大值。
第 4 章 一般方阵的特征分解及其局限性
4.1 方阵的特征分解与可对角化条件
4.1.1 特征值与特征向量的代数定义
对于一般的方阵 $A$ ,特征值和特征向量的定义是: $A \boldsymbol{v} = \lambda \boldsymbol{v}$ 。也就是说,向量 $\boldsymbol{v}$ 经过线性变换 $A$ 之后,方向没有发生改变,只是长度被缩放了 $\lambda$ 倍,这个 $\boldsymbol{v}$ 就是特征向量, $\lambda$ 就是对应的特征值。
4.1.2 特征向量的几何意义:线性变换下的不变方向
不管是对称矩阵还是一般矩阵,特征向量的几何意义都是一样的:它是线性变换下的不变子空间(一条穿过原点的直线),在这个一维空间上,向量仅发生缩放或反向(当特征值为负时翻转 180°),但绝不会偏离这条直线。这就是特征向量最核心的几何本质,不管矩阵是什么样的,这个性质都成立。
下面的动态可视化展示了特征向量的不变方向:当向量旋转时,只有特征向量的方向在变换后保持不变,其他向量的方向都会发生改变。
4.1.3 方阵可对角化的充要条件
如果一个方阵 $A$ 有 $n$ 个线性无关的特征向量,那么我们就可以把 $A$ 分解为 $A = P \Lambda P^{-1}$ ,其中 $P$ 的列是特征向量, $\Lambda$ 是对角矩阵,对角元是特征值,这个分解就是特征分解。而方阵可对角化的充要条件,就是它有 $n$ 个线性无关的特征向量,换句话说,所有特征值的几何重数等于代数重数。
4.1.4 特征分解的标准代数形式
特征分解的标准形式是 $A = P \Lambda P^{-1}$ ,和实对称矩阵的正交对角化不同,这里的 $P$ 不是正交矩阵,它的列向量是线性无关的,但不一定正交, $P$ 的逆也不是 $P$ 的转置。
4.2 一般可对角化方阵的几何图景
4.2.1 斜交基下的线性变换:剪切效应的产生
对于一般的可对角化方阵,它的特征向量不一定是正交的,这意味着,我们用来分解变换的基是斜交的,不是正交的。这时候,线性变换除了缩放之外,还可能产生剪切效应,也就是空间被沿着某个方向拉伸的同时,发生了切变。 最典型的例子就是剪切变换,比如矩阵 $A=\begin{bmatrix}1&1\\0&1\end{bmatrix}$ ,这个变换会把 $x$ 坐标加上 $y$ 坐标, $y$ 坐标不变,它会把正方形变成平行四边形,这就是剪切效应。 下面的可视化展示了这个剪切变换的效果:
4.2.2 斜交基下的解耦:一般可对角化方阵的物理意义
对于一般可对角化矩阵,其特征向量虽然线性无关,但通常不再两两正交(即构成斜交基)。在这种情形下,特征向量依然保持了“线性变换下方向不变”的核心几何属性,但在物理或动力系统中,斜交的特征基意味着系统在标准坐标系下存在强烈的“耦合”。
当我们通过 $A = P \Lambda P^{-1}$ 进行特征分解时,本质上是在寻找一个特定的斜交坐标系(由 $P$ 的列向量构成)。在这个斜交坐标系下观察,原本相互纠缠、相互影响的变换过程,被完美地“解耦”成了各个特征方向上的独立缩放(由 $\Lambda$ 描述)。这在深度学习的循环神经网络(RNN)状态转移、或马尔可夫链中意义重大:特征向量指明了系统中独立演化的“隐藏模态”,而特征值决定了这些模态随着时间推移是衰减、发散还是保持振荡。只是与实对称矩阵不同,这个用来解耦的“观察视角”本身是倾斜的。
4.3 特征分解的固有局限性
4.3.1 非对称方阵的特征值与实际拉伸能力的偏离
对于非对称的方阵,特征值虽然描述了特征方向上的缩放,但它并不能描述变换的最大拉伸能力。因为非对称矩阵的变换存在剪切效应,最大的拉伸可能出现在不是特征向量的方向上。比如,剪切变换的特征值都是 1,但是它的最大拉伸能力可以远大于 1,比如向量 $(0,1)$ 经过变换之后变成了 $(1,1)$ ,长度变成了 $\sqrt{2}$ ,比 1 大,这说明特征值已经不能准确描述变换的拉伸能力了。
下面的交互画板展示了这一现象:请用鼠标拖拽蓝色点 x 沿单位圆转动,观察 $||A\boldsymbol{x}||$ 的实时变化,亲自寻找最大拉伸方向——它绝不在特征向量(x 轴)上!
画板同时展示了 特征向量(橙色,不变方向)与右奇异向量(紫色,真实最大/最小拉伸方向) 的差异:对非对称矩阵而言,这两组方向并不重合,奇异向量才能准确刻画变换的拉伸能力。
4.3.2 亏损矩阵的不可对角化问题
更严重的是,有些矩阵根本就没有 $n$ 个线性无关的特征向量,比如我们之前的剪切变换矩阵,它的特征值都是 1,但是只有一个线性无关的特征向量,也就是 $x$ 轴方向。这样的矩阵叫做亏损矩阵,它根本就不能进行特征分解,因为我们找不到足够的特征向量来构成基。这意味着,特征分解对于这类矩阵是完全失效的。
下面的交互画板通过引入一个极小量 $\epsilon$(在代码中用字母 $e$ 表示滑块),动态展示两个原本分离的特征向量如何随着 $\epsilon \to 0$ 最终合二为一,造成空间降维。
4.3.3 非方阵场景下特征分解的失效
除此之外,特征分解只能对方阵进行,对于非方阵,比如 $m \times n$ 的矩阵, $m \neq n$ ,特征分解根本就没有定义,因为非方阵没法定义特征值和特征向量。但是在实际应用中,我们经常会遇到非方阵,比如数据的样本数和维度不一样,这时候特征分解就完全用不了了。 这些局限性,都催生了更通用的矩阵分解方法,也就是奇异值分解,它可以处理任意的矩阵,不管是不是方阵,是不是可对角化。
第 5 章 奇异值分解:任意矩阵的通用几何分解
5.1 奇异值分解的标准形式与基本性质
5.1.1 任意矩阵奇异值分解的存在性与标准形式
奇异值分解(SVD)是矩阵的一种通用分解,它说的是,对于任意的 $m \times n$ 矩阵 $A$ ,我们都可以把它分解为:
其中, $U$ 是 $m \times m$ 的正交矩阵, $V$ 是 $n \times n$ 的正交矩阵, $\Sigma$ 是 $m \times n$ 的对角矩阵,它的对角元 $\sigma_1 \geq \sigma_2 \geq ... \geq \sigma_k > 0$ ,其他元素都是 0。这个分解对于任意的矩阵都存在,不管 $A$ 是不是方阵,是不是满秩,是不是可对角化,都可以做 SVD。
5.1.2 左奇异向量、右奇异向量与奇异值的定义
这里的 $\sigma_i$ 就是奇异值,它们都是非负的实数, $U$ 的列向量叫做左奇异向量, $V$ 的列向量叫做右奇异向量。我们可以看到,右奇异向量是 $A^T A$ 的特征向量,左奇异向量是 $A A^T$ 的特征向量,而奇异值是 $A^T A$ 的特征值的平方根,也就是 $\sigma_i=\sqrt{\lambda_i(A^T A)}$ 。
5.1.3 奇异值分解的核心代数性质
奇异值分解有很多优秀的代数性质,比如,它的奇异值是唯一的,左奇异向量和右奇异向量在对应奇异值不同的情况下是唯一的。而且,前 $k$ 个奇异值和对应的奇异向量,给出了矩阵 $A$ 的最优的秩 $k$ 近似,也就是在所有秩为 $k$ 的矩阵中,前 $k$ 项的 SVD 近似和 $A$ 的 Frobenius 范数的误差最小,这就是 Eckart-Young-Mirsky 定理,这个性质是很多应用的基础。
5.2 奇异值分解的几何拆解
5.2.1 线性变换的三步正交分解:旋转 - 缩放 - 旋转
SVD 最核心的几何意义,就是它把任意的线性变换,拆解成了三个简单的变换的组合:
首先是 $V^T$ 对应的正交变换,也就是旋转或者反射,它把输入的坐标系旋转到右奇异向量的坐标系下;
然后是 $\Sigma$ 对应的缩放变换,它把各个坐标轴按照奇异值 $\sigma_i$ 进行缩放,同时把维度从 $n$ 映射到 $m$ ,多余的维度直接丢弃,或者补零;
最后是 $U$ 对应的正交变换,也就是旋转或者反射,它把输出的坐标系旋转到左奇异向量的坐标系下。 这三个步骤里, $V^T$ 和 $U$ 都是正交变换,它们不会改变向量的长度,也不会改变空间的形状,只是旋转坐标系,只有中间的 $\Sigma$ 是缩放变换,它负责拉伸或者压缩空间。这意味着,任意的线性变换,不管多复杂,都可以拆解成 “旋转 - 缩放 - 旋转” 这三个简单的步骤,这是一个非常漂亮的结论。 下面的动态可视化展示了这个过程,我们用一个非对称的矩阵 $A=\begin{bmatrix}2&1\\0&1\end{bmatrix}$ 来举例,通过时间演化动态演示单位圆经过这三步连续变换后,最终变为了椭圆的过程:
5.2.2 奇异值与线性变换最大拉伸能力的对应关系
奇异值的几何意义,就是线性变换在各个正交方向上的拉伸能力。最大的奇异值 $\sigma_1$ ,就是线性变换的最大拉伸能力,也就是对于所有单位向量 $\boldsymbol{x}$ , $||A \boldsymbol{x}||$ 的最大值,正好就是 $\sigma_1$ 。而最小的奇异值 $\sigma_n$ ,就是最小的拉伸能力,也就是 $||A \boldsymbol{x}||$ 的最小值。这和特征值不同,奇异值准确地描述了变换在所有方向上的拉伸能力,不管矩阵是不是对称的,是不是可对角化,这个结论都成立。 比如,我们之前的剪切变换,它的特征值都是 1,但是它的奇异值分别是 $\sqrt{\frac{3+\sqrt{5}}{2}} \approx 1.618$ 和 $\sqrt{\frac{3-\sqrt{5}}{2}} \approx 0.618$ ,这正好描述了它的最大和最小拉伸能力,比特征值准确得多。
下面的动态可视化展示了奇异值的最大拉伸能力:当向量旋转时,||Ax|| 的最大值正好是最大奇异值,最小值是最小奇异值。
5.3 奇异值分解对核心概念的统一解释
5.3.1 实对称矩阵的奇异值分解与正交对角化的关联
对于正定的实对称矩阵,它的 SVD 其实就是正交对角化。因为 $A=Q \Lambda Q^T$ ,这里 $U=Q$ , $V=Q$ , $\Sigma=\Lambda$ ,所以奇异值就等于特征值,左奇异向量和右奇异向量都等于特征向量。这说明,正交对角化其实就是 SVD 的一个特例,SVD 把它推广到了任意的矩阵。
5.3.2 协方差矩阵的奇异值分解与主成分分析的对应
对于协方差矩阵 $\Sigma$ ,它是半正定的实对称矩阵,所以它的 SVD 就是它的正交对角化,而主成分分析的主成分,就是它的右奇异向量,主成分的方差就是奇异值。这也说明,PCA 其实就是 SVD 在协方差矩阵上的应用,我们甚至可以直接对数据矩阵做 SVD,来得到 PCA 的结果,这就是为什么很多 PCA 的实现都是用 SVD 来做的,因为它更稳定。
下面的动态可视化展示了 PCA 的累计方差解释率:随着我们保留的主成分越来越多,累计的方差解释率逐渐上升,最终达到 100%。
| 保留的主成分数量 | 特征值 | 累计方差解释率 |
|---|---|---|
| 1 | 2.207 | 73.6% |
| 2 | 0.793 | 100.0% |
5.3.3 行列式、迹与奇异值的内在关联
对于方阵,行列式的绝对值等于所有奇异值的乘积, $|\det(A)|=\prod \sigma_i$ 。这是因为, $\det(A)=\det(U)\det(\Sigma)\det(V^T)$ ,而 $U$ 和 $V$ 都是正交矩阵,它们的行列式的绝对值是 1,所以 $|\det(A)|=\det(\Sigma)=\prod \sigma_i$ ,这正好就是体积的缩放因子,和我们之前的几何意义一致。 而迹呢,对于半正定矩阵,迹等于奇异值的和,对于一般的矩阵,迹和奇异值的关系没有这么直接,不过我们有 von Neumann 迹不等式, $|\text{tr}(A B)| \leq \sum \sigma_i(A) \sigma_i(B)$ ,这个不等式在很多优化问题中都有应用。
5.4 Moore-Penrose 伪逆
5.4.1 伪逆的代数定义与核心性质
对于不可逆的矩阵,或者非方阵,我们没法定义普通的逆矩阵,但是我们可以定义 Moore-Penrose 伪逆,它是普通逆矩阵的推广,对于任意的 $m \times n$ 矩阵 $A$ ,它的伪逆 $A^+$ 是一个 $n \times m$ 的矩阵,满足四个 Moore-Penrose 条件: $A A^+ A = A$ , $A^+ A A^+ = A^+$ , $(A A^+)^T = A A^+$ , $(A^+ A)^T = A^+ A$ 。
5.4.2 基于奇异值分解的伪逆构造方法
基于 SVD,我们可以很容易地构造伪逆:如果 $A=U \Sigma V^T$ ,那么 $A^+ = V \Sigma^+ U^T$ ,其中 $\Sigma^+$ 就是把 $\Sigma$ 的对角元取倒数,然后转置。也就是说,对于每个非零的奇异值 $\sigma_i$ ,我们把它变成 $1/\sigma_i$ ,零的奇异值还是零。这个构造方法非常简单,而且不管 $A$ 是不是满秩,是不是方阵,都可以用。
5.4.3 伪逆的几何直观:不可逆 / 非方阵变换的最优近似逆
伪逆的几何意义,就是线性变换的最优近似逆。对于一个线性变换 $A$ ,如果它是可逆的,那么伪逆就是普通的逆,我们可以通过 $A^+$ 把变换后的向量还原回去。如果 $A$ 是不可逆的,或者是非方阵,那么 $A$ 把输入空间映射到了输出空间的一个子空间里,这时候,伪逆做的事情就是,把输出空间中的向量,先投影到 $A$ 的值域上,然后再把它映射回输入空间,使得重构的误差最小。 换句话说,伪逆给出了在最小二乘意义下的最优逆变换,它可以让我们在即使变换不可逆的情况下,找到最接近的逆变换。
下面的交互画板以二维为例,直观展示伪逆的"最优投影"本质:矩阵 $A = \begin{bmatrix}1\\1\end{bmatrix}$(将一维标量 $t$ 映射为二维空间中的斜线 $y=x$ 上的点),拖拽紫色目标点 $\boldsymbol{b}$,观察伪逆 $A^+$ 如何将其垂直投影到 $A$ 的值域(橙色直线)上,得到最小二乘解 $x^* = A^+\boldsymbol{b}$。
5.4.4 伪逆与最小二乘问题的最优解
最小二乘问题的最优解,正好就是 $\boldsymbol{x}=A^+ \boldsymbol{b}$ 。这是因为,最小二乘问题是要最小化 $||A \boldsymbol{x} - \boldsymbol{b}||^2$ ,它的解就是 $\boldsymbol{x}=(A^T A)^{-1} A^T \boldsymbol{b}$ ,而这个正好就是 $A$ 的伪逆,所以伪逆直接给出了最小二乘问题的解,这也是伪逆在统计和机器学习中最常用的场景。
第 6 章 核心概念的深度学习应用拓展
6.1 线性变换与全连接层的前向传播
6.1.1 全连接层的矩阵乘法本质
深度学习中的全连接层,它的前向传播过程,本质上就是一个线性变换加上一个偏置,也就是 $\boldsymbol{y} = W \boldsymbol{x} + \boldsymbol{b}$ 。这里的权重矩阵 $W$ ,就是线性变换的矩阵,输入 $\boldsymbol{x}$ 是向量,输出 $\boldsymbol{y}$ 是变换后的向量。所以,全连接层的本质,就是我们之前讨论的线性变换,所有我们之前讲的线性变换的几何性质,都可以用来分析全连接层的行为。
6.1.2 权重矩阵的变换特性对信号传播的影响
权重矩阵的奇异值,直接决定了信号在网络中的传播情况。如果权重矩阵的最大奇异值太大,那么信号就会被不断放大,导致梯度爆炸;如果最小奇异值太小,信号就会被压缩,导致梯度消失。这就是为什么归一化的权重初始化很重要,比如 Xavier 初始化,它的目标就是让权重矩阵的奇异值大概在 1 附近,这样信号的尺度在传播过程中不会发生太大的变化,保证了训练的稳定性。
6.2 行列式与迹的深度学习应用
6.2.1 行列式在概率生成模型中的应用:流模型与多元高斯分布归一化
在基于流的生成模型(Normalizing Flows)中,我们需要计算变量变换后的概率密度,根据概率的变换规则, $p_y(y) = p_x(x) * |\det(dx/dy)|$ ,这里的雅克比矩阵的行列式的绝对值,就是我们之前讲的体积缩放因子。流模型通过可逆的变换把简单的分布转换成复杂的分布,而计算概率密度的时候,就需要用到雅克比矩阵的行列式,这正好就是我们之前讲的行列式的几何意义:它描述了变量变换的时候,概率密度的缩放比例。
6.2.2 迹在正则化与模型优化中的应用:权重衰减与梯度状态监控
迹在深度学习中有很多应用,首先,权重衰减(L2 正则化),它的损失项是 $||W||_F^2=\text{tr}(W^T W)$ ,我们可以用迹来简洁地表示这个正则项,而且在计算梯度的时候,迹的循环不变性可以帮我们简化梯度的计算。 另外,迹还可以用来监控梯度的状态,比如,我们可以计算海森矩阵的迹,来衡量函数的平滑程度,或者用来检测梯度的消失和爆炸。需要注意的是,自然梯度法(Natural Gradient Descent)等高级优化算法调整更新方向使用的是 Fisher 信息矩阵的逆($F^{-1}$),以适应参数空间的黎曼几何结构,而不是使用迹。
6.3 特征分解与奇异值分解的深度学习应用
6.3.1 基于奇异值分解的模型压缩与低秩适配
深度学习模型的权重矩阵,通常都是低秩的,或者说,大部分的信息都集中在大的奇异值上,小的奇异值只包含了很少的信息。所以,我们可以用 SVD 对权重矩阵做低秩近似,只保留前 $k$ 个大的奇异值,这样就可以把原来的 $m \times n$ 的权重矩阵,分解成两个小的矩阵 $m \times k$ 和 $k \times n$ ,大大减少参数的数量,实现模型压缩。 而最近非常火的低秩适配(LoRA),也是基于这个思想,它在微调大模型的时候,不对原来的权重做更新,而是用两个低秩矩阵来模拟权重的更新,这样就可以用很少的参数来微调大模型,效果和全微调差不多,这就是低秩近似的应用。
下面的动态可视化展示了低秩近似的误差:随着我们保留的奇异值越来越多,近似的误差逐渐下降,最终收敛到 0。
| 保留的奇异值数量 $k$ | 近似误差 ($\|A - A_k\|_F^2$) |
|---|---|
| 1 | 0.63 |
| 2 | 0.00 |
6.3.2 高维特征降维与模型可解释性分析
在深度学习中,我们经常会得到高维的特征,比如 CNN 提取的图像特征,或者 Transformer 提取的文本特征,这些特征的维度非常高,我们没法直接可视化。这时候,我们就可以用 PCA,也就是基于 SVD 的降维方法,把高维的特征降到二维或者三维,这样我们就可以可视化特征的分布,分析模型的行为。 另外,我们还可以用 SVD 来分析权重矩阵的主成分,找到模型关注的最重要的特征方向,来提升模型的可解释性。
6.3.3 矩阵补全与协同过滤推荐系统
在推荐系统中,我们有一个用户 - 物品的评分矩阵,但是大部分的元素都是缺失的,因为用户只会给很少的物品打分。此时,我们可以用矩阵补全来填充这些缺失的元素。需要注意的是,严格的代数 SVD 要求矩阵必须是稠密的,无法直接处理缺失值(NaN)。推荐系统中大名鼎鼎的“SVD”(实际上是 Funk SVD 或交替最小二乘法 ALS)借用了低秩近似的几何思想。它并不执行严格的矩阵分解,而是通过梯度下降,仅在已知的评分数据上最小化重构误差,从而学习出用户的隐藏因子和物品的隐藏因子。这展现了 SVD 的几何思想在最优化领域的灵活变体。
6.4 伪逆的深度学习应用
6.4.1 线性回归求解与权重初始化
伪逆最基础的应用就是线性回归的求解,我们之前说过,最小二乘的解就是 $\boldsymbol{x}=A^+ \boldsymbol{b}$ ,这个可以用来直接求解线性回归的权重,不需要迭代。然而在现代深度学习中,全连接层绝不使用伪逆来初始化权重,而是普遍采用打破对称性且维持方差稳定的随机初始化(如 Xavier 或 Kaiming 初始化)。利用伪逆逐层精确拟合前一层输出是早期“极限学习机”(ELM)或某些古老的逐层贪婪预训练的做法,已脱离现代深度学习的主流实践。
6.4.2 逆变换求解与计算机视觉三维重建任务
在计算机视觉的三维重建任务中,我们需要从二维的图像投影,恢复出三维的空间点,这个过程本质上就是一个逆变换的问题。相机的投影矩阵是一个 $3 \times 4$ 的非方阵,它是不可逆的,但是我们可以用它的伪逆,来求解最优的三维点,最小化重投影误差,这就是伪逆在三维重建中的典型应用。
附录
附录 A 核心概念对照表
| 概念 | 代数定义 | 几何意义 | 核心性质 | 典型应用 |
|---|---|---|---|---|
| 线性变换 | $T(\boldsymbol{x}+\boldsymbol{y})=T(\boldsymbol{x})+T(\boldsymbol{y}), T(k\boldsymbol{x})=kT(\boldsymbol{x})$ | 保持线性结构的空间变换 | 可加、齐次 | 全连接层、卷积层 |
| 矩阵乘法 | $A \boldsymbol{x}$ | 线性变换对向量的作用 | 复合变换对应矩阵乘法 | 神经网络前向传播 |
| 行列式 | $\det(A)$ | 超体积缩放因子 | $\det(AB)=\det(A)\det(B)$ | 流模型概率归一化 |
| 迹 | $\text{tr}(A)=\sum A_{ii}$ | 平均拉伸能力 | $\text{tr}(ABC)=\text{tr}(BCA)$ | 正则化、梯度计算 |
| 特征值 / 特征向量 | $A \boldsymbol{v}=\lambda \boldsymbol{v}$ | 变换下的不变方向与缩放 | $\text{tr}(A)=\sum\lambda_i, \det(A)=\prod\lambda_i$ | 二次型优化、PCA |
| 正交对角化 | $A=Q\Lambda Q^T$ | 正交基下的独立缩放 | 特征向量正交 | 二次型、高斯分布 |
| 奇异值分解 | $A=U\Sigma V^T$ | 旋转 - 缩放 - 旋转的通用分解 | 对任意矩阵存在 | 模型压缩、降维 |
| 伪逆 | $A^+=V\Sigma^+ U^T$ | 最优近似逆变换 | 最小二乘解 | 线性回归、三维重建 |
附录 B 常用线性代数公式汇总
矩阵乘法: $(AB)_{ij} = \sum_k A_{ik} B_{kj}$
行列式性质: $\det(A^T)=\det(A)$ , $\det(AB)=\det(A)\det(B)$ , $\det(kA)=k^n \det(A)$
迹的性质: $\text{tr}(A+B)=\text{tr}(A)+\text{tr}(B)$ , $\text{tr}(A^T)=\text{tr}(A)$ , $\text{tr}(ABC)=\text{tr}(BCA)$
正交对角化:对于实对称矩阵 $A$ , $A=Q\Lambda Q^T$ , $Q^T Q=I$
奇异值分解:对于任意矩阵 $A$ , $A=U\Sigma V^T$ , $U^T U=I$ , $V^T V=I$
伪逆公式: $A^+ = \lim_{\epsilon \to 0} (A^T A + \epsilon I)^{-1} A^T$
最小二乘解: $\boldsymbol{x}=(A^T A)^{-1} A^T \boldsymbol{b} = A^+ \boldsymbol{b}$