课程主页:https://see.stanford.edu/Course/EE263

这次回顾第七讲,这一讲结束最小二乘应用的内容,然后介绍了正规化最小二乘法和牛顿高斯法。

Growing sets of regressors

考虑一族最小二乘问题,对于$p=1, \ldots, n​$

(其中$a_{1}, \dots, a_{p}$被称为回归量)

  • 用$a_{1}, \dots, a_{p}​$的线性组合近似$y​$
  • 将$y$投影到$\operatorname{span}\left\{a_{1}, \dots, a_{p}\right\}$
  • 利用$a_{1}, \dots, a_{p}$对$y$做回归
  • 随着$p$增加,回归效果变好,所以最优残差减少

$p\le n​$的解由下式给出

其中

  • $A_{p}=\left[a_{1} \cdots a_{p}\right] \in \mathbb{R}^{m \times p}$是$A$的前$p$列
  • $A_p=Q_p R_p$是$A_p$的$QR$分解
  • $R_{p} \in \mathbb{R}^{p \times p}$是$R$的$p\times p$主子式
  • $Q_{p}=\left[q_{1} \cdots q_{p}\right]$是$Q$的前$p$列

实际效果如下:

最小二乘系统识别

我们测量未知系统的输入$u(t)$和输出$y(t)$,$t=0, \ldots, N$:

系统识别问题:根据I/O数据$u,y$,找到合理的系统模型。

假设$u,y$是标量,对I/O数据使用$n​$步延迟的滑动平均模

其中$h_{0}, \ldots, h_{n} \in \mathbb{R}$。

可以将模型写成矩阵形式:

模型的预测误差为

最小二乘识别:选择模型(即$h$)来最小化预测误差$| e|$。

模型阶数选择

继续之前的问题。

现在有一个问题,模型阶数$n​$如何选择?显然$n​$越大,建立模型的预测误差就越小,实际中可以作出阶数$n​$和相对误差的图:

从上图中不难看出,最合适的选择是$n=10​$。

交叉验证

交叉验证是在不用来建立模型的数据上评估预测结果:

从上图中仍然可以看出,最合适的选择是$n=10$。当$n$太大时,在验证数据上的相对误差很大,这就产生了模型过拟合的问题,所以实际中选择适中的$n$。

Growing sets of measurements

这部分考虑“流”的形式的最小二乘问题:

其中$a_i^T​$是$A​$的行($a_i \in \mathbb R^n​$)

  • $x \in \mathbb R^n$是某些需要估计的向量

  • 每对$a_i,y_i$为一个测量值

  • 该问题的解显然为

  • 考虑$a_i,y_i$为序列,即$m$随着时间增加的问题

递归最小二乘

对于上述问题,我们可以递归计算

  • 初始化$P(0)=0 \in \mathbb{R}^{n \times n}, q(0)=0 \in \mathbb{R}^{n}$

  • 对$m=0,1, \ldots, $

  • 如果$P(m)​$可逆,我们有

  • 注意到$P(m)$可逆等价于$a_{1}, \dots, a_{m}$张成$\mathbb R^n$(所以,一旦$P(m)$不可逆,那么后面的$P(m)$将会一直不可逆)

递归最小二乘的快速更新

我们需要计算

而这可以利用如下公式(rank one update formula)快速更新:

这里要求$P=P^T$以及$P$和$P+aa^T$都可逆。

  • 这给出了在$O(n^2)$时间内由$P(m)^{-1}$计算$P(m+1)^{-1}$的方法
  • 从$P(m+1)$计算$P(m+1)^{-1}$的标准方法需要的时间复杂度是$O\left(n^{3}\right)$

Verification of rank one update formula

公式验证:

Lecture 7 Regularized least-squares and Gauss-Newton method

多目标的最小二乘

在许多问题中我们有两个(或更多)的目标

  • 我们希望$J_{1}=|A x-y|^{2}$很小
  • 同时也希望$J_{2}=|F x-g|^{2}$很小

($x \in \mathbb{R}^{n}$可逆)

  • 通常目标函数是竞争关系
  • 我们在使其中一个变小的同时,另一个会变大

常见的例子:$F=I,g=0$;即我们希望$|A x-y|$和$|x|$同时比较小。

对可行的目标对作图

对每个$x$,作出图像$\left(J_{2}, J_{1}\right)​$:

注意$x \in \mathbb {R}^{n}$,但该图像是$\mathbb R^2$的;图中$x^{(i)}$代表的实际上是$\left(J_{2}\left(x^{(i)}\right), J_{1}\left(x^{(i)}\right)\right)$

  • 阴影部分为可以取到的$(J_2, J_1)​$
  • 无阴影部分为无法取到的$(J_2, J_1)$
  • 区域边界被称为最佳权衡曲线
  • 权衡曲线对应的$x$被称为Pareto Optimality(关于目标函数$|A x-y|^{2},|F x-g|^{2}$)

图中的三个例子:$x^{(1)}, x^{(2)}, x^{(3)}$

  • $x^{(3)}​$在$J_1,J_2​$上都比$x^{(2)}​$差
  • $x^{(1)}$在$J_2$上比$x^{(2)}$好,在$J_1$上比$x^{(2)}$差