MatrixTheory: 特殊矩阵与矩阵分解

特殊矩阵

一些复数域的特殊矩阵。

正规矩阵

复数域可酉对角化(不一定正交对角化)的矩阵。$Q^* = Q ^{-1}$。

$$
Q^* A Q = \Lambda
$$

定义:复数域上的方阵,满足$AA^*=A^*A$

性质

  1. 与正规矩阵酉相似的矩阵还是正规矩阵,即$B = Q^*A Q$,其中$A$是正规矩阵,则$B$也是正规矩阵。
  2. $A$为正规三角矩阵,则$A$一定为对角矩阵。
  3. $A$为正规矩阵$\iff$$A$可酉对角化。

左到右:舒尔定理——复数域的方阵一定可酉相似于三角矩阵。而正规三角矩阵一定为对角矩阵。

实数域的正规矩阵:$A ^T = A$,$A ^T = -A$,$A ^T = A ^{-1}$
复数域的正规矩阵:$A^* = A$,$A^* = -A$,$A^* = A ^{-1}$

Hermite矩阵:$A^* = A$

实对称矩阵的推广。性质:

  1. 特征值都是实数,类似地,反Hermite矩阵的特征值都是纯虚数或0。
  2. 复二次型:$x^* A x$(一定是实数),相应地,可定义正定、标准化。

等积变换:正交变换、酉变换$x = Qy$

酉矩阵:$AA^*=A^*A=E$

  1. 特征值模为1。

矩阵分解(20~30分)

满秩分解

化埃尔米特标准型求。四个子空间。

可能能用于求矩阵的次方。如$A ^2 = PQPQ=P(QP)Q$。特别是对于$A$的秩为1的时候,$P$和$Q$都是向量,此时$QP$是一个数。

正交三角分解

$A _{m\times n}$:必须列满秩才有正交三角分解。

$$
A _{m\times n}= U _{m \times n}R _{n \times n}
$$

其中$U$的列向量单位正交,$R$是主对角元大于0的上三角。

$U$即为$A$的列向量的斯密特单位正交化。$R _{ij}=(\alpha _i, \gamma _j)(i \ne j),R _{ii}=||\beta _i||$且上三角。或者$R = U^* A$。

正交三角分解是唯一的。

应用:解线性方程组。

谱分解

$A _{n \times n}$:可对角化的方阵才有谱分解。

$P=(\alpha _1, \alpha _2,..., \alpha _n)$,其中$\alpha _i$为特征向量。

最基本的谱分解:
$$
A = (\alpha _1,...,\alpha _n)eye(\lambda _1,...,\lambda _n)(\beta _1 ^T,...,\beta _n ^T)
$$

其中$P ^{-1}=(\beta _1 ^T,...,\beta _n ^T)$(竖着的)

于是:

$$
A = \lambda _1 \alpha _1 \beta _1 ^T +...+ \lambda _n \alpha _n \beta _n ^T
$$

记$S _1,..., S _m$为不同的特征值,则:

$$
A = S _1 G _1+...+ S _m G _m
$$

性质:

  1. $\sum _{i = 1} ^m G _i = E$
  2. $\beta _i ^T \alpha _j = 1 (i = j);0 (i \ne j)$。$(\alpha _i \beta _i ^T) ^2 = \alpha _i \beta _i ^T$,$(\alpha _i \beta _i ^T)(\alpha _j \beta _j ^T) = 0 (i \ne j)$。故$G _i ^2 = G _i$,$G _i G _j = 0 (i \ne j)$。
  3. $r (G _i) = n _i (\text{特征值的代数重数})$。
  4. 谱分解唯一。用性质1、2证明。

正规矩阵的谱分解:不需要专门求逆矩阵。

$$
A ^2 = \sum \lambda _i ^2 G _i
$$

三角分解(cholesky分解)

$A _{n\times n}$:秩为$r$的方阵,$A=LU$,其中$L$为单位下三角,$U$是上三角。

  • 条件:1~r阶顺序主子式非零。

本质是高斯消元:即行变换相当于左乘矩阵,让行变换后的矩阵是个上三角,此时左乘的矩阵一定是一个单位下三角。由于左乘的单位下三角是可逆的,故左乘其逆矩阵即可得到$A=LU$。

  • 注:此时的行变换只能用上面的行去减下面的行。

实正定矩阵

首先,一定有三角分解,但是更特殊,称Cholesky分解:$A=R ^T R$。$R$为主对角元大于零的上三角。

因为正定矩阵一定是对称的,所以可以正交相似对角化:$Q ^TA Q=\Lambda$,可得$A = Q\Lambda Q ^T=Q\sqrt{\Lambda}\sqrt{\Lambda}Q ^T=(\sqrt{\Lambda}Q ^T) ^T (\sqrt{\Lambda}Q ^T)=B ^T B=(\sqrt{\Lambda}Q ^T) ^T Q ^T Q(\sqrt{\Lambda}Q ^T)=(Q\sqrt{\Lambda}Q ^T) ^T(Q\sqrt{\Lambda}Q ^T) =C ^TC$,显然,$C$是一个正定矩阵。

而$B$是满秩的,所以一定有正交三角分解,即$B = UR$,$U$为正交矩阵,于是$B ^TB=(UR) ^T(UR)=R ^TR$,即为所求。

这样的分解是唯一的。

求法:同时行列变换(仍然只能上减下、左减右),将$A$化为对角矩阵,分别左右乘逆矩阵,然后对角矩阵开根号,前两个当一个矩阵,后两个当一个矩阵即可。

奇异值分解(极分解)

$A _{m\times n}$,$r(A) = r$,$A _{m\times n}= U _{m\times m} D _{m\times n} V^* _{n\times n}$,其中$U,V$是酉矩阵,$D$的所有元素中只有主对角线上前面的元素$\delta _i$非零,$\delta _i > 0,0\le i\le r$,$\delta _i$称为$A$的奇异值。

  • 奇异值:$A A^*$的特征值开根号。
  • $U$:$A A^*$特征值的单位正交向量组成的矩阵。
  • $V$:$A^* A$特征值的单位正交向量组成的矩阵。

一些性质

  • $r(A) = r (A^*) = r (AA^*) = r (A^* A)$:即证$N(A)=N(AA^*)$。
  • $AA^*$与$A^* A$的非零特征值完全一样:$A^* A$特征值为$\lambda$,特征向量为$\alpha$,则$AA^*$的特征值为$\lambda$,特征向量为$A \alpha$。
  • $A^* A$和$A A^*$都是半正定矩阵,特征值开根号即为奇异值。
  • 设$\lambda$为$A^* A$的一个非零特征值,$\alpha _1,...,\alpha _k$为其单位正交特征向量,则$\lambda$为$A A^*$特征向量,$A\alpha _1,...,A\alpha _k$为其正交特征向量,但不是单位的,要除以$\sqrt{\lambda}$(即奇异值)才是单位化的。

奇异值分解求法

  1. 求$A^*A$大于0的特征值$\lambda _i$,及其对应的单位正交的特征向量$\alpha _i$;求0特征值对应的单位正交的特征向量$\alpha _{i+1}$。
  2. 求$AA^*$大于0的特征值(和$A^*A$)相同,及其对应的单位正交的特征向量$\beta _i$($\beta _i = (A \alpha _i) / \sqrt{\lambda _i}$);求0特征值对应的单位正交的特征向量$(\beta _{i+1})$。(无特殊求法)

$A(\alpha _1,..., \alpha _i, \alpha _{i+1}, ...,\alpha _n)=(\beta _1,...,\beta _i,\beta _{i+1},..,\beta _n)\Lambda(\sqrt{\lambda _1},..,\sqrt{\lambda _i},0,...,0)$,故$A=UDV^*$。其中$U=(\beta _1,...,\beta _i,\beta _{i+1},..,\beta _n)$,$V=(\alpha _1,..., \alpha _i, \alpha _{i+1}, ...,\alpha _n)$。

先求$AA^*$还是$A^*A$看哪个阶数小。

$\alpha _1,..,\alpha _i$是$A$的行空间中的向量,$\beta _1,..,\beta _i$是$A$的列空间中的向量;$\alpha _{i+1},...,\alpha _n$是$N(A)$的向量,$\beta _{i+1},..,\beta _n$是$N ^T(A)$中的向量。

极分解

若$A$是方阵,则$A=UDV^*=(UDU^*)(UV^*)$,其中,左边是一个半正定矩阵,右边是酉矩阵,这就是极分解。或者$A=(UV^*)(VDV^*)$,其中左边是酉矩阵,右边是半正定矩阵。若$A$可逆,则为半正定变为正定。

A是正规矩阵

原始式很重要。牢记,有些就是对原始式做变形。

范数

向量范数

长度的推广。

满足性质:

  1. $||\alpha|| > 0$,正定性
  2. $||k \cdot \alpha|| = |k| ||\alpha||$,齐次性
  3. $||\alpha + \beta|| \le ||\alpha|| + ||\beta||$,三角不等式

非负函数。

定义了范数的线性空间称赋范线性空间

  • $\mathcal{l} _1$:$\sum |x _i|$
  • $\mathcal{l} _2$:$(\sum |x _i| ^2) ^{1/2}$
  • $\mathcal{l} _p$:$(\sum |x _i| ^p) ^{1/p}(p \ge 1)$
  • $\mathcal{l} _\infty$:$\max\{|x _i|,1\le i\le n\}$

以上统称$p$范数。向量范数是等价的。等价:

$$
c _1,c _2, c _2||\alpha|| _b \le ||\alpha|| _a\le c _1||\alpha|| _b
$$

矩阵范数

除前面三条性质外,还有:

  • $|||AB||| \le |||A|||\space |||B|||$

F范数:

  • $|||A||| _F=(\sum |a _{ij}| ^2) ^{1/2}=\sqrt{\text{tr}(AA^*)}=\sqrt{\text{tr}(A^*A)}$

Schur不等式,$A = (a _{ij}) _{n\times n},\lambda _1,...,\lambda _n$,则:

$$
\sum |\lambda _i| ^2 \le \sum |a _{ij}| ^2\iff\text{A是正规矩阵取等号}
$$

Schur定理:$Q^* A Q = \text{diag}(\lambda _1, ...,\lambda _n)+\text{上三角}$,其中$Q^*=Q ^{-1}$。

相容

$$
||A \alpha|| \le |||A|||\cdot ||\alpha||
$$
其中$A$是矩阵,$\alpha$是向量,则称这两个范数是相容的。

算子范数

由向量范数$||\cdot|| _a$构造相容的矩阵范数:

$$
|||A|||=\max _{x \ne 0,x \in C ^n}\frac{||Ax|| _a}{||x|| _a}=\max _{||x|| _a=1}||Ax|| _a
$$

如$||\alpha|| _2$导出的矩阵范数:

$$
|||A||| _2==\max _{||x|| _2=1}||Ax|| _2
$$

$$
||Ax|| _2 ^2=(Ax,Ax)=x^* A^* Ax
$$

设$A^*A$的$n$个特征值为$\lambda _1\ge ...\ge \lambda _n \ge 0$,对应的单位正交特征向量为$\alpha _1,...,\alpha _n$。显然,这是$C ^n$的一组基,故:

$$
x = x _1\alpha _1+...+x _n \alpha _n
$$

$$
x^*= \overline{x} _1\alpha _1^*+...+\overline{x} _n \alpha _n^*
$$

$$
x^* A^* A x=(\overline{x} _1\alpha _1^*+...+\overline{x} _n \alpha _n^*)A^* A(x _1\alpha _1+...+x _n \alpha _n)
$$

即:

$$
\begin{align*}
x^* A^* A x
&=(\overline{x} _1\alpha _1^*+...+\overline{x} _n \alpha _n^*)(x _1\lambda _1\alpha _1+...+x _n\lambda _n \alpha _n)\\
&=\lambda _1 |x _1| ^2+...+\lambda _n |x _n| ^2\\
&\le \lambda _1(|x _1| ^2+...+ |x _n| ^2)
\end{align*}
$$

而可以取等,所以$x^* A^* Ax = \lambda _1$,$|||A||| _2 =\sqrt{\lambda _1}$。其中$\lambda _1$为最大特征值。称谱范数

作业:求$||\alpha|| _1$和$||\alpha|| _\infty$的导出的矩阵算子范数。(提示:矩阵行取模最大、列取模最大)。

向量、矩阵序列的收敛性

向量序列$x ^{(k)}=(x _1 ^{(k)},...,x _n ^{(k)}) ^T$,收敛:$\lim _{k \to \infty} x ^{(k)}=x\iff \lim _{k\to \infty}||x ^{(k)}-x||=0$。

同理,可定义矩阵序列及其收敛。

矩阵或向量的收敛是每个元素都收敛到一个值。

矩阵的幂序列:$A ^{(k)}= A ^k$。化为Jordan标准型,Jordan块的$k$次方,二项展开i即可,不用记公式。

  • $|\lambda| _i < 1$,收敛到0;
  • $|\lambda| _i=1$且$\lambda _i = 1$且$m = 1$,收敛;
  • 其他发散

故,矩阵的谱半径小于$1$时幂矩阵序列幂收敛到0。

谱半径范数是最小的矩阵范数

$\rho (A) \le |||A|||$

证明:令$B = A / (|||A|||+\epsilon)$,则$|||B|||=|||A|||/(|||A|||+\epsilon) < 1$。

矩阵级数

向量/矩阵序列的项相加。$\sum _{k=0} ^{\infty}A ^{(k)}$。收敛即$\sum a _{ij} ^{(k)}$都收敛。

矩阵幂级数

$\sum _{k=0} ^\infty a _k A ^k$收敛性与$f(t)=\sum _{k=0} ^\infty a _k t ^k$有关。假设为Jordan块,则每一行的和就是$f(\lambda)$的泰勒级数。最终:

$$
\sum a _k A ^k = P\text{diag}(f(J _1),...,f(J _s))p ^{-1}
$$

其中$\rho(A)< r$,其中$r$为数项幂级数的收敛半径。

矩阵函数

$e ^A$,$\sin A$,$\cos A$:可泰勒展开化为矩阵多项式求。而矩阵多项式又可用哈密尔顿凯勒定理求:

  • 哈密尔顿凯勒定理求:$A ^n$可由$A ^{n-1},...,E$线性表示。即$f(A)=\varPhi(\lambda)g+\text{余式}$。其中$g$是某个零化多项式,$\text{余式}$是比它低一次的多项式。只要待定系数求出余式的系数即可,带入的数是零化多项式的根(缺少约束就两边求导)。