课程主页:https://see.stanford.edu/Course/EE263

这次回顾第十三讲,这一讲结束了特征值和对角化,介绍了约当标准型。

例子:马尔可夫链

马尔可夫链的概率分布满足

注意到

所以

第二个事实可以写成矩阵形式

即$\left[\begin{array}{llll}{1} & {1} & {\cdots} & {1}\end{array}\right]$为$P$的特征值$1$对应的左特征向量,因此

$P$同样有非零的右特征向量$v\neq 0$满足

我们可以选择$v$,使得$v_i \ge 0$,因此我们可以将$v$正规化,使得

解释:$v$是平稳分布,即,如果$p(0)=v$,那么对$t\ge 0$,我们都有$p(t)=v$

对角化

假设$v_{1}, \dots, v_{n}$是$A\in \mathbb R^{n\times n}$的线性无关特征向量组:

矩阵形式为

定义

那么

  • 因为$v_{1}, \dots, v_{n}$线性无关,所以$T$可逆
  • 使用$T$的相似变换将$A$对角化

反过来,如果存在$T=\left[v_{1} \cdots v_{n}\right]$,使得

那么$AT=T\Lambda$,即

所以$v_{1}, \dots, v_{n}$是$A$的线性无关特征向量组。

我们称$A$可对角化,如果

  • 存在$T$,使得$T^{-1} A T=\Lambda$为对角矩阵
  • $A$有线性无关的特征向量组

(如果$A$无法对角化,有时称其为defective)

不是所有矩阵都可对角化

例子:

不同的特征值

事实:如果$A$有不同特征值,即对于$i\neq j$,$\lambda_i \neq \lambda_j$,那么$A$可对角化,反过来并不成立——即使$A$有重复的特征值,但它也有可能对角化。

对角化和左特征向量

将$T^{-1} A T=\Lambda$写成$T^{-1} A=\Lambda T^{-1}$,或

其中$w_{1}^{T}, \ldots, w_{n}^{T}$是$T^{-1}$的行,因此

即,$T^{-1}$的行为左特征向量,并且

即,根据这种方式选择的左右特征向量为对偶基。

假设$A$可以由$T$对角化,定义新的坐标系$x=T \tilde{x}$,所以

在新的坐标下,系统为对角阵的形式:

轨迹由$n$个独立模式组成,即

因此被称为modal form

Real modal form

当特征值是复数的时候,系统可以化为Real modal form的形式:

其中$\Lambda_{r}=\operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{r}\right)$为实特征值,并且

为复特征值。

框图为

对角化的作用

对角化简化了很多矩阵表达式。

resolvent:

幂(即离散情形的解):

(对于$k<0$,只有$A$可逆的时候上式才成立,即所有的$\lambda_i \neq 0$)

指数(连续情形的解):

函数的解析函数

对于任意解析函数$f : \mathbb{R} \rightarrow \mathbb{R}$,即有多项式序列给出的函数

我们可以对$A\in \mathbb R^{n\times n}$定义$f(A)$为

将$A=T \Lambda T^{-1}$带入,我们有

通过对角化求解

假设$A$可对角化,考虑LDS$\dot{x}=A x$,并且$T^{-1} A T=\Lambda$,那么

因此:任何轨迹都可以表示为modal的线性组合。

解释

  • (左特征向量)将初始状态$x(0)$分解为modal元素$w_i^Tx(0)$
  • $e^{\lambda_i t}$项将第$i$个model向前推进$t$秒
  • 将状态重建为(右)特征向量的线性组合

应用

当$x(0)$为何值时,当$t\to \infty$时,我们有$x(t)\to 0$?

将特征值分为实部负和非负的两部分,负数部分

其余部分为

我们得到$x(t)\to 0$的条件为

或者等价的,

离散时间系统的稳定性

假设$A$可对角化,考虑离散时间LDS

如果$A=T \Lambda T^{-1}$,那么$A^{k}=T \Lambda^{k} T^{-1}$,因此对任意的$x(0)$

我们必然有

我们将在后面看到,当$A$无法对角化的时候,上述事实依然成立,因此我们有:$x(t+1)=A x(t)$稳定当且仅当$A$的所有特征值的模长小于$1$

Lecture 12 约当标准型

约当标准型

约当标准是对角化的推广。

任意矩阵$A \in \mathbb{R}^{n \times n}$通过相似变换可以化为如下形式

其中

被称为大小为$n_i$,特征值为$\lambda_i$的约当块(所以$n=\sum_{i=1}^{q} n_{i}$)

约当标准型有如下性质:

  • $J$为上三角bidiagonal
  • $J$为对角矩阵为约当标准型的特殊情形,此时有$n$个约当块,并且$n_i =1$
  • 约当标准型唯一(考虑置换的情形下)
  • 可能有很多个约当块的特征值相同

备注:约当标准为理论工具,数值计算中从不使用!

注意$J$的特征值多项式为

因此不同特征值$\Rightarrow n_{i}=1 \Rightarrow A$可对角化。

$\operatorname{dim} \mathcal{N}(\lambda I-A)$为特征值为$\lambda$的约当块的数量,更一般的,我们有

所以根据$\operatorname{dim} \mathcal{N}(\lambda I-A)^{k},k=1,2,\ldots$,我们可以判断和$\lambda $有关的约当块的数量。

关于约当标准型有如下事实:

  • $\lambda I-A=T(\lambda I-J) T^{-1}$

  • 对大小为$3$的分块:

  • 对其他大小为$3$的分块($k\ge 2$),我们有

广义特征向量

假设

将$T$表达为

其中$T_{i} \in \mathbb{C}^{n \times n_{i}}$为和第$i$个约当块$J_i$有关的$T$的列,我们有

那么我们有

即,$T_i$的第一列为$\lambda_i $对应的特征向量。

对$j=2, \ldots, n_{i}$,

向量$v_{i 1}, \dots v_{i n_{i}}$被称为广义特征向量。

约当标准型LDS

考虑LDS

通过坐标变换

我们可以化为

因此系统被分解为独立的“约当块系统”$\dot{\tilde{x}}_{i}=J_{i} \tilde{x}_{i}$

约当块有时被称为约当链

Resolvent,约当块的指数

考虑特征值为$\lambda_i$的$k\times k$的约当块的resolvent

其中$F_i$为第$i$个上对角线全为$1$的矩阵。

利用逆拉普拉斯变换,得到指数形式为

约当块产生:

  • $e^{tA}$中$t^{p} e^{t \lambda}$的项