EE263 Lecture 6 Least-squares applications
课程主页:https://see.stanford.edu/Course/EE263
这次回顾第六讲,这一讲介绍最小二乘法以及其应用。
几何解释
$A x_{\text{ls}}$是$\mathcal{R}(A)$中最接近$y$的点($A x_{\text{ls}}$是$y$在$\mathcal{R}(A)$上的投影):
最小二乘(近似)求解
假设$A$是满秩,瘦矩阵
为了找到$x_{\text{ls}}$,我们将最小化残差的平方,
令关于$x$的梯度为$0$得到:
这产生正规方程:
假设$A^TA$可逆,那么我们有
从上式不难看出$x_{\text{ls}}$是$y$的线性函数
如果$A$是方阵并且可逆,那么
如果$y \in \mathcal{R}(A)$,那么$x_{\mathrm{ls}}$求解了方程$y=Ax_{\mathrm{ls}}$
$A^{\dagger}=\left(A^{T} A\right)^{-1} A^{T}$被称为$A$的伪逆矩阵
$A^{\dagger}$是$A$(满秩,瘦矩阵)的左逆:
$\mathcal R(A)$上的投影
$A x_{\text{ls}}$是$\mathcal R(A)$上最靠近$y$的点,即是$y$在$\mathcal R(A)$上的投影:
投影函数$\mathcal P_{\mathcal R(A)}$是线性的,由下式给出
$A\left(A^{T} A\right)^{-1} A^{T} $被称为投影矩阵
正交准则
最优残差
和$\mathcal R(A)$正交:
其中$z\in \mathbb R^n$。
通过$QR$分解得到最小二乘法
$A\in \mathbb R^{m\times n}$是瘦,满秩矩阵
将$A$分解为$A=QR$,其中$Q^{T} Q=I_{n}$,$R \in \mathbb{R}^{n \times n}$是上三角可逆矩阵
那么伪逆为
所以$x_{\mathrm{ls}}=R^{-1} Q^{T} y$
$\mathcal R(A)$上的投影矩阵为
通过完全$QR$分解得到最小二乘法
完全$QR$分解:
其中$\left[Q_{1} Q_{2}\right] \in \mathbb{R}^{m \times m}$是正交矩阵,$R_{1} \in \mathbb{R}^{n \times n}$是上三角可逆矩阵
乘以正交矩阵不改变范数,所以
很显然要使得上式最小,显然要取$x_{\mathrm{ls}}=R_{1}^{-1} Q_{1}^{T} y$
最优$x$对应的残差为
$Q_1 Q_1^T $给出了到$\mathcal R(A)$上的投影
$Q_2Q_2^T$给出了到$\mathcal{R}(A)^{\perp}$上的投影
最小二乘估计
在反演,估计和重建问题中的许多问题的形式为
- $x$是我们需要估计或者重建的量
- $y$是传感器的测量值
- $v$是未知的噪声或测量误差(假设很小)
- $A$的第$i$行描述了第$i$个传感器
最小二乘估计:选择$\hat{x}$最小化
显然最小二乘估计为
BLUE性质
带有误差的线性测量:
其中$A$是瘦,满秩矩阵,考虑形如$\hat{x}=B y$的线性估计:
称该估计式无偏的,如果$v=0$时有$\hat x = x$,这等价于$BA=I$,即$B$是$A$的左逆
线性无偏估计的误差为
显然,我们希望$B$很“小”(以及$BA=I$)
实际上$A^{\dagger}=\left(A^{T} A\right)^{-1} A^{T}$是$A$的最小左逆,即对于任意满足$BA=I$的$B$,我们有
即,最小二乘法给出了最小线性无偏估计(BLUE)
例子
考虑之前的一个例子:
信号$u$是分段常数(每一秒),$0\le t\le 10$:
根据带有脉冲响应$h(t)$的系统过滤:
每$10\text{Hz}$采样:$\tilde{y}_{i}=w(0.1 i), i=1, \ldots, 100$
$3$比特量化:$y_{i}=Q\left(\tilde{y}_{i}\right), i=1, \dots, 100$,其中$Q$是三比特量化特征
问题,给定$y \in \mathbb{R}^{100}$,估计$x\in \mathbb R^{10}$
实例:
我们有$y=Ax+v$,其中
- $A\in \mathbb R^{100\times 10}$由$A_{i j}=\int_{j-1}^{j} h(0.1 i-\tau) d \tau$给出
- $v\in \mathbb R^{100}$是量化误差:$v_{i}=Q\left(\tilde{y}_{i}\right)-\tilde{y}_{i}$,所以$\left|v_{i}\right| \leq 0.125$
最小二乘估计:
最后的效果如下:
RMS误差为
这里老师表示最难的部分是给该问题建立模型,而不是求解最小二乘本身。
Lecture 6 最小二乘的应用
最小二乘数据拟合
我们给定:
- 函数$f_{1}, \dots, f_{n} : S \rightarrow \mathbb{R}$,这被称为回归量或基函数
- 数据或测量$\left(s_{i}, g_{i}\right), i=1, \dots, m$,通常$s_i \in S, m\gg n$
问题:找到系数$x_{1}, \dots, x_{n} \in \mathbb{R}$,使得
即找到函数的线性组合来拟合数据。
最小二乘拟合:选择$x$以最小化总平方拟合误差:
使用矩阵记号,总平方拟合误差为$|A x-g|^{2}$,其中$A_{i j}=f_{j}\left(s_{i}\right)$
因此,最小二乘估计由下式给出
(假设$A$是瘦,满秩矩阵)
相应的函数为
应用:
- 插值,外推,数据平滑
- 推导简单的近似数据模型
最小二乘多项式拟合
问题:用次数小于$n$的多项式拟合数据$\left(t_{i}, y_{i}\right), i=1, \dots, m$
基函数$f_j(t)=t^{j-1},j=1,\ldots ,n$
矩阵$A$的形式为$A_{i j}=t_{i}^{j-1}$
该矩阵被称为范德蒙矩阵,假设对于$k\neq l$,$t_k\neq t_l$,以及$m\ge n$,那么$A$是满秩矩阵:
- 假设$Aa=0$
- 相应的多项式$p(t)=a_{0}+\cdots+a_{n-1} t^{n-1}$满足$p(t_i)= y_i$
- $A$的列线性无关,即$A$满秩