距离上次更新已经 2127 天了,文章内容可能已经过时。

课程主页:https://see.stanford.edu/Course/EE263

这次回顾第八讲,这一讲结束正规化最小二乘法和牛顿高斯法,介绍了欠定方程。

加权目标

此时我们的目标函数为

J1+μJ2=Axy2+μFxg2
  • 参数μ0给出了J1,J2的相对权重
  • 加权和为常数的点,即J1+μJ2=α,对应了(J2,J1)图上斜率为μ的直线

  • 从上图中不难看出x(2)最小化加权和
  • μ0变化到+,可以扫过整个最优权衡曲线

最小化加权目标

可以将加权和表达为常规的最小二乘目标函数:

Axy2+μFxg2=[AμF]x[yμg]2=A~xy~2

其中

A~=[AμF],y~=[yμg]

假设A~满秩,那么问题的解为

x=(A~TA~)1A~Ty~=(ATA+μFTF)1(ATy+μFTg)

正规化最小二乘

F=I,g=0时,目标函数为

J1=Axy2,J2=x2

最小化加权和目标函数,我们得到

x=(ATA+μI)1ATy

上式被称为Axy的加权最小二乘(近似)解。

  • 这也被称为Tychonov正则项
  • 对于μ>0,由于ATA+μI正定,所以上述解对任意A成立

非线性最小二乘

非线性最小二乘(NLLS)问题:找到xRn最小化

r(x)2=i=1mri(x)2

其中r:RnRm

  • r(x)是残差向量
  • 如果r(x)=Axy,上述问题简化为(线性)回归

高斯-牛顿法求解NLLS

  • 通常,很难求解非线性最小二乘(NLLS)问题
  • 但是有很多好的启发式算法计算局部最优解

高斯牛顿法:

  • 给定x的初始猜测值
  • 重复
    • 在当前值附近线性化r
    • 新的值为使用线性化的r的最小二乘问题的解
  • 直至收敛

高斯牛顿法的细节

  • 在当前的x(k)附近线性化r

    r(x)r(x(k))+Dr(x(k))(xx(k))

    其中Dr为雅克比矩阵:(Dr)ij=ri/xj

  • 将线性近似写成:

    r(x(k))+Dr(x(k))(xx(k))=A(k)xb(k)A(k)=Dr(x(k)),b(k)=Dr(x(k))x(k)r(x(k))
  • 在第k轮,我们将NLLS问题近似为线性最小二乘问题:

    r(x)2A(k)xb(k)2
  • 下一轮求解上述线性最小二乘问题:

    x(k+1)=(A(k)TA(k))1A(k)Tb(k)
  • 重复上述步骤直至收敛(不能保证收敛)

由于泰勒展开只有局部近似性,所以实际中我们常常增加正则项,求解如下问题:

A(k)xb(k)2+μxx(k)2

这样下一轮迭代的结果不会和上一轮距离太远(因此,线性化的模型仍然相当准确)

Lecture 8 欠定方程的最小范数解

欠定线性方程

我们考虑

y=Ax

其中ARm×n是胖矩阵(m<n),即

  • 未知数的数量多于方程数量
  • x是未指定的,即,许多x的选择导致相同的y

我们假设A满秩(秩为m),所以对每个yRm,存在解,并且解的形式为

{x|Ax=y}={xp+z|zN(A)}

其中xp是任意特解,即,

Axp=y
  • z表示解的可选项
  • 解有dimN(A)=nm的“自由度”
  • 可以选择z以满足其他要求或进行优化