MatrixTheory: 特征值、特征向量

Posted on 2023-10-25 Edited on 2023-12-17 In MATH6005: Matrix Theory Views: Word count in article: 3.2k Reading time ≈ 11 mins.

矩阵理论第五课，主要讲特征值、特征向量与内积。

不变子空间

$V: \mathbb{F}上$线性空间，$T \in L(V)$，$U$是$V$的子空间。若$\forall \alpha \in U$，$T(\alpha) \in U$，即$T(U) \subseteq U$，则称$U$是$V$的关于$T$的不变子空间。

平凡子空间$\{0\}$和$V$是不变子空间。线性变换的零空间和像空间也是不变子空间。

特征值、特征向量

若$V = U _1 \oplus U _2 \oplus U _3$，其中$U _1...U _3$均为不变子空间，则以不变子空间的基为基向量的线性变换矩阵为分块对角矩阵。进一步地，若存在$\text{dim}V$个不变子空间且这些子空间的直和为$V$，则线性变换矩阵就是对角矩阵，对角线的值为特征值，不变子空间的基为特征向量。

$T(\alpha _i) = \lambda _i \alpha _i$，$\lambda _i$为特征值，$\alpha _i$为特征向量，其中$\lambda \in \mathbb{F}$，$\alpha \not ={0}$。

这和$Ax = \lambda x$是等价的，只不过矩阵的只能是有限维的。

不同特征值对应的特征向量线性无关。

$T\in L(V)$，$\mathbb{F}=C$，$\text{dim}V=n$，则$T$在复数域内一定有特征值。

$T \in L(V)$，$U$是不变子空间

$T | _U \in L(U)$，缩小算子$T$的定义域。
$T / U: V/U \to V/U$，商空间到商空间的映射，只有在不变子空间下才合理。如$(T/U)(\alpha + U) = T(\alpha) + U$

简单的基下矩阵

对$T \in L(V)$，$\mathbb{F}=C$，$\text{dim}V = n$，一定存在一组基，使得基下的矩阵是上三角。

证明：即证$T(\alpha _i) \in \text{span}[\alpha _1, ...,\alpha _i]$。要用到商空间和商空间的线性变换。

等价地，复数域上的任意一个方阵一定相似于一个上三角。

特征子空间

特征子空间$E(T, \lambda) = \text{null}(T - \lambda I)$，内部元素为所有的特征向量+零向量。不同特征值的特征子空间的和是直和。

$$
E(T,\lambda _1) \oplus E(T, \lambda _2) \oplus...\oplus E(T, \lambda _m) \le V
$$

取等当且仅当存在一组基使得基下的矩阵为对角矩阵；
也当且仅当$V$可以分成$n$个一维不变子空间的直和。

内积空间

内积空间：定义了内积的线性空间。其中，内积满足：

$(\alpha, \beta)=(\beta, \alpha)$
$(\alpha+\beta,\gamma)=(\alpha, \gamma)+(\beta,\gamma)$
$(k\cdot\alpha, \beta)=k(\beta, \alpha)$
$(\alpha,\alpha)\ge 0,\text{iff}\space \alpha=0\space \text{取等}。$

对复数域，坐标相乘相加的内积要对第二项取共轭，即：

$$
(\alpha, \beta)=\alpha \overline{\beta}
$$

实数域的内积空间称欧式空间，复数域上的称酉空间。

内积的性质

设$\beta \in V$，$\beta$固定。定义$T: V \to \mathbb{F}$，$\forall \alpha \in V$，$T(\alpha) = (\alpha, \beta)$，$T \in L(V,\mathbb{F})$
$(0,\beta) = (\beta,0)=0$
$(\alpha, \beta + \gamma)=(\alpha, \beta)+(\alpha,\gamma)$
$(\alpha, k\cdot\beta)=\overline{k}(\alpha, \beta)$
$(\sum _{i=1} ^m x _i \alpha _i,\sum _{j=1} ^n \gamma _j \beta _j )=\sum\sum x _i \overline{y _j}(\alpha _i, \beta _j)$

向量的长度

$$
||\alpha|| = \sqrt{(\alpha, \alpha)}
$$

$||k\alpha|| = |k|\sqrt{(\alpha, \alpha)}$
$|(\alpha, \beta)|\le ||\alpha||||\beta||$（柯西不等式）。当且仅当两者线性相关等号成立。
$||\alpha + \beta||\le ||\alpha||+||\beta||$（三角不等式）。当且仅当两者共线等号成立。

正交向量组、标准正交向量组、标准正交基

正交向量组：向量间两两正交。正交向量组一定线性无关。

校准正交组：单位化的正交向量组。

标准正交基：可由一组线性无关的基经过斯密特正交化得到。

斯密特正交化前后的基张成的空间是相同的空间。所以$\exists$标准正交基，使得基下的矩阵为上三角。

实数域的转置等价于复数域的共轭转置。

向量$\alpha$在标准正交基下的线性表示系数为$(\alpha, \gamma _i)$。

正交补空间

$V$内积空间，$U$子空间，定义：

$$
U ^{\perp} = \{\alpha \in V: \forall \beta \in U, (\alpha,\beta)=0\}
$$

$U ^{\perp}$是$V$的子空间，是$U$的正交不空间，且$V=U \oplus U ^{\perp}$。

度量矩阵

$$
G =
\begin{bmatrix}
(\alpha _1, \alpha _1)...(\alpha _n, \alpha _1)\\
... &\\\
(\alpha _1, \alpha _n)...(\alpha _n, \alpha _n)
\end{bmatrix}
$$

则任意两个向量在指定基$\alpha _1,...,\alpha _n$下的内积为：

$$
(\alpha, \beta)=\overline{y}Gx
$$

其中$y$是$\beta$在基下的坐标，$x$是$\alpha$在基下的坐标。

实数域的$G$是个对称的正定矩阵。
复数域的$G$是个共轭对称的正定矩阵。（共轭转置：$G ^*=G$）
正定一定对称。

一个正定矩阵定义一个内积。不同基下的$G$矩阵合同。

投影变换

$V = U \oplus U ^\perp,\forall \alpha \in V,\alpha = \beta + \gamma,\beta \in U, \gamma \in U ^\perp$。定义$P _U: V \to V,\forall \alpha \in V, \alpha = \beta + \gamma,P _U(\alpha)=\beta$。$P _U$即为$V$中的向量$\alpha$到$U$的投影变换。投影变换有性质：

$\text{null}P _U = U ^\perp$
$\text{range}P _U = U$
$P ^2 _U = P _U$
设$\epsilon _1,...,\epsilon _k$为$U$的一组标准正交基，则$P _U (\alpha) = (\alpha, \epsilon _1) \epsilon _1+...+(\alpha, \epsilon _k) \epsilon _k$

最佳近似向量

内积空间$V$，子空间$U$，$\beta \in V$，$\beta \notin U$，若有$\alpha \in U$，使得$\forall \gamma \in U$，$||(\beta - \alpha)|| \le ||\beta -\gamma||$，则称$\alpha$为$\beta$在$U$的最佳近似向量。

即距离最小的。实际上$\alpha$就是$\beta$的正交投影向量。

用途：求矛盾方程的最佳近似解（又称最小二乘解）。如$Ax=b$没有解，则$A ^TAx=A^Tb$求出来的$x$就是最佳近似解。因为没有解，所以$b$不在列空间$C$中，列空间的正交补空间为$N(A ^T)$，设$A x _0$为最佳近似向量，则b在正交补空间的投影可表示为$b - A x _0$，正交补空间为$N(A ^T)$，所以有$A ^T(b - Ax _0)=0$。

内积空间的线性变换

内积空间$V$，算子$T \in L(V)$。若$\forall \alpha,\beta \in V,(\alpha,\beta)=(T(\alpha),T(\beta))$，则称该变换为等积变换。对应地，有：

$||\alpha||=||T(\alpha)||$，等长变换；
$||\alpha-\beta||=||T(\alpha)-T(\beta)||$，等距变换；
$\epsilon _1,...,\epsilon _k$为$V$的标准正交基，$T(\epsilon _1),...,T(\epsilon _k)$也是标准正交基；
$T(\epsilon _1,..,\epsilon _n)=(\epsilon _1,..,\epsilon _n)A _{n\times n},A ^* A = A A ^* =E$，这种变换称正交变换，即保持内积的变换。

这几个都是等价的，也称正交变换。

伴随变换：$(T(\alpha),\beta)=(\alpha,S(\beta))$，其基下矩阵满足$A = B ^*$。

自伴随$T=S$，此时$A ^*=A$

广义特征向量

对$T\in L(V)$，$\lambda$为特征值，$(T -\lambda I) ^j (\alpha) = 0$，$j$为正整数，$\alpha \ne 0$，则称$\alpha$为特征值$\lambda$的广义特征向量。$G(T,\lambda)$为广义特征子空间。

$\{0\}=\text{null}T ^0 \subseteq \text{null}T _1\subseteq ... \subseteq \text{null}T ^k$
若$\text{null}T ^{k+1} =\text{null} ^k$，则$\text{null} ^{n+k+1}=\text{null} ^{n+k}$
$\text{dim}V=n$，则$\text{null}T ^n=\text{null} T ^{n+1}$
$\text{dim}V=n$，则$V = \text{null} T ^n \oplus \text{range}T ^n$

$G(T,\lambda)=\text{null}(T-\lambda I) ^{\text{dim}V}$，$T\in L(V)$，$\lambda _1,...,\lambda _m$是不同特征值，其对应的不同广义特征向量$\alpha _1,...,\alpha _m$线性无关。

证明：分别作用线性变换使得只有一项留下。如，定义$k$为使得$(T-\lambda _1 I) ^k (\alpha _1)\ne 0$的最大整数。

幂零变换

$N \in L(V)$，若$N ^k = 0$，则称$N$为幂零变换，类似于幂零矩阵。对幂零变换，一定有$N ^{\text{dim}V}=0$。

存在某个基，使得幂零变换在基下的上三角矩阵的对角线元素全为0，即幂零变换的特征值都是0。（因为上三角矩阵的对角线元素就是特征值）

$T \in L(V)$，$\lambda _1,...,\lambda _m$为不同特征值，则：

$V = G(T,\lambda _1)\oplus...\oplus G(T,\lambda _m)$;
$G(T,\lambda _i)$是$T$的不变子空间；
$(T - \lambda _i I) | _{G(T,\lambda _i)}$是幂零变换。

对2：$\forall \alpha \in G(T, \lambda _i) = \text{null}(T - \lambda _i I) ^k$，有$(T - \lambda _i I) ^k (\alpha) = 0$，$(T - \lambda _i I) ^k (T(\alpha)) = T((T - \lambda _i I) ^k(\alpha))=0$
对3：广义特征子空间的定义；

不变子空间的基下矩阵为分块对角阵。
特征值数、特征子空间维数：几何重数
广义特征向量、广义特征子空间维数：代数重数

$V$存在由广义特征向量构成的基，基下的矩阵为分块对角，块数为特征值数，块的维数该特征值下广义特征子空间的维数。进一步地，该分块对角矩阵可被优化为上三角矩阵。

$$
T | _{G(T,\lambda _i)} = (T - \lambda _i I) | _{G (T, \lambda _i)} + \lambda _i I | _{G (T, \lambda _i)}
$$

即，拆分为一个幂零变换和恒等变换的和。

Jordan标准型

基下矩阵的进一步简化：只有对角线有值，且次对角线全为1。

$$
\begin{bmatrix}
\lambda _1, 1, ...,...\\
0, \lambda _2, 1,...\\
0, 0, \lambda _3, 1
\end{bmatrix}
$$

同一个特征值的Jordan块的数目取决于线性无关的特征向量的个数。

$V$存在由广义特征向量构成的基，基下的矩阵为Jordan标准型。

先研究幂零变换的Jordan标准型，其他可由幂零变换+恒等变换得到。

若$N \in L(V)$为幂零变换，则$V$中存在一组向量$\alpha _1, \alpha _2,...,\alpha _m$，及一组非负整数$k _1, k _2,...,$，使得：

$$
\begin{align*}
&N ^{k _1}(\alpha _1), ... , N(\alpha _1), \alpha _1 \\
&N ^{k _2}(\alpha _2), ... , N(\alpha _2), \alpha _2 \\
&...\\
&N ^{k _m}(\alpha _m), ... , N(\alpha _m), \alpha _m \\
&N ^{K _i + 1}(\alpha _i)=0
\end{align*}
$$

化为$V$的一组基。其中$m$为Jordan块个数。

同一个特征值的Jordan块个数等于几何重数。
相似于Jordan标准型的特征向量为广义特征向量。

Hamilton-Cayley Them

线性变换的特征多项式：

$$
f _{\tau}(\lambda) = (\lambda - \lambda _1) ^{n _1}...(\lambda - \lambda _m) ^{n _m}
$$

其中$\sum n _i = n$，若将该线性变换带入，即将$\lambda$换为$T$，则$f _\tau (T)$是一个零变换。该多项式称为零化多项式。

由该定理，$A ^n$以及更高次的$A _{n+1}$都可由$A ^{n-1},...,E$线性表示。若$A$可逆，则逆也可以由$A ^{n-1},...,E$线性表示。

最小多项式

$A$的零化多项式中，次数$n$最低的首一多项式（最高项系数为1），记作$m _A(\lambda)$。

最小多项式是唯一的；
设$f(\lambda)$为$A$的任意零化多项式，则$m _A(\lambda) | f(\lambda)$，即$f(\lambda)$一定可以被$m _A (\lambda)$整除。特别的，的任意零化多项式，则$m _A(\lambda) | f _A(\lambda)$，因为特征多项式是零化多项式；
$P ^{-1}A P = B$，则$m _A(\lambda)=m _B(\lambda)$；
$A$的任一特征值为$m _A (\lambda)$（对任意零化多项式也成立）的根；
若$A$是分块对角，则每个块的最小多项式$m _{A _i}(\lambda) | f(\lambda)$，即$A$的最小多项式是每个块最小多项式的最小公倍式；
$A$可对角化当且仅当$m _A(\lambda)$无重根（复数域上）。

Jordan标准型的最小多项式就是最大次数的几个不同Jordan块的最小多项式的乘积。
$\lambda ^n = 1$无重根。

Jordan型求法：a. 求特征值：若特征值均不同，则对角化；否则求几何重数。对三阶矩阵，一定能求；对四阶，若所有特征值相同，几何重数为2，则可能的Jordan块组合为2+2和3+1，用最小多项式检验哪个是对的即可。（更高阶的不需要掌握）

圆盘定理

近似地计算特征值 & 确定特征值的范围：

$$
|\lambda - a _{ii}| \le \sum\limits _{i \ne j} ^n |a _{ij}|
$$

第一圆盘定理

$A$的任意一个特征值一定会落在某个圆盘内。

第二圆盘定理

几个圆盘叠在一起，那么这个叠加后的区域就有几个特征值。由此推知，若圆盘互相分离，则$A$一定有$n$个不同的特征值，$A$一定可以对角化，这是对复数域，若是实数域，则还可以说明特征值都是实数（因为此时圆盘是关于$x$轴对称的，根都是成对出现的，除了$x$轴上的根）。

谱 & 谱半径

谱：所有特征值构成的集合。

谱半径$\rho (A)$：特征值模的最大值。

$$
\begin{align*}
\mu=&\max \{\sum \limits _{j=1} ^n |a _{ij}|\} _{1\le i \le n} \\
\mu '=&\max \{\sum \limits _{i=1} ^n |a _{ij}|\} _{1\le j \le n} \\
\rho (A) &\le \min \{\mu,\mu '\}
\end{align*}
$$

事实上：$\rho (A) \le ||A||$。

$||A||$是矩阵范数。