CS205A Lecture 4 Designing linear systems (incl. least-squares); special structure (Cholesky, sparsity)

课程主页：https://graphics.stanford.edu/courses/cs205a-13-fall/schedule.html

这次回顾第四讲，这一讲结束了LU分解的内容，介绍敏感性和病态性。

Chapter 3 设计和分析线性系统

回归

假设我们的函数有如下形式

$f(\vec x) =\sum_{i=1}^m a_i f_i (\vec x)$

如果我们有$m$个观测值，那么可以得到如下线性系统：

$\left( \begin{matrix} f_1(\vec x^{(1)}) & f_2(\vec x^{(1)}) & \ldots &f_m(\vec x^{(1)}) \\ f_1(\vec x^{(2)}) & f_2(\vec x^{(2)}) & \ldots &f_m(\vec x^{(2)}) \\ \vdots & \vdots & \vdots & \vdots \\ f_1(\vec x^{(m)}) & f_2(\vec x^{(m)}) & \ldots &f_m(\vec x^{(m)}) \end{matrix} \right) \left( \begin{matrix} a_1 \\ a_2 \\ \vdots \\ a_m \end{matrix} \right)= \left( \begin{matrix} y^{(1)}\\ y^{(2)} \\ \vdots \\ y^{(m)} \end{matrix} \right)$

我们的任务是求解$(a_1,…,a_m)^T$，在继续之前，来看两个具体例子：

多项式回归

如果

$f(x)=\sum_{i=0}^n a_i x^i$

那么此时称为多项式回归，对应的线性系统为：

$\left( \begin{matrix} 1 & x^{(1)} & (x^{(1)})^2&\ldots &(x^{(1)})^n \\ 1 & x^{(2)} & (x^{(2)})^2&\ldots &(x^{(2)})^n \\ \vdots & \vdots & \vdots &\ldots & \vdots \\ 1 & x^{(n)} & (x^{(n)})^2&\ldots &(x^{(n)})^n \\ \end{matrix} \right) \left( \begin{matrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{matrix} \right)= \left( \begin{matrix} y^{(1)}\\ y^{(2)} \\ \vdots \\ y^{(n)} \end{matrix} \right)$

Mini-Fourier

另一种常见的形式为

$f(x)=a\cos(x+\phi)$

最小二乘法

考虑上述问题，我们自然希望

$A\vec x \approx \vec b$

这等价于

$\min_{\vec x} ||A\vec x -\vec b ||$

最小化上述问题等价于最小化

$g(\vec x)=||A\vec x -\vec b ||^2$

化简可得

$\begin{aligned} g(\vec x) &=||A\vec x -\vec b ||^2 \\ &=(A\vec x -\vec b)^T (A\vec x -\vec b)\\ &=\vec x ^T A^TA\vec x -\vec b^T A\vec x - \vec x ^T A^T \vec b + \vec b^T\vec b \\ &=\vec x ^T A^TA\vec x -2\vec x ^T A^T \vec b + \vec b^T\vec b \end{aligned}$

对上式关于$\vec x $求梯度可得

$\begin{aligned} \nabla_{\vec x} g(\vec x) &= \nabla_{\vec x}( \vec x ^T A^TA\vec x -2\vec x ^T A^T \vec b + \vec b^T\vec b) \\ &= 2 A^TA\vec x - 2A^T \vec b \end{aligned}$

令上式为$0$可得

$A^TA\vec x=A^T \vec b$

该方程被称为正规方程，下面对$A^TA$这个矩阵做更多的讨论。

(半)正定矩阵和Cholesky分解

讨论之前先介绍一些基本概念：

对称性

$B是对称矩阵如果B^T=B$

显然$A^TA$是对称矩阵。

(半)正定性

$B是半正定矩阵如果任取\vec x，我们有\vec x^T B \vec x\ge 0；\\ B是正定矩阵，如果当\vec x \neq \vec 0，我们有\vec x^T B \vec x> 0$

注意到

$\vec x^T A^T A\vec x =(A\vec x)^T(A\vec x)=||A\vec x||_2^2 \ge 0$

所以$A^TA$是半正定矩阵，事实上，如果$A$可逆，那么$A^TA$是正定矩阵。

有了这些准备工作，考虑正定对称系统$C\vec x = \vec d$的求解，假设$C\in \mathbb R^{n\times n}$且$C$是对称矩阵，将$C$写为分块形式：

$C= \left( \begin{matrix} c_{11} & \vec v^T \\ \vec v & \tilde C \end{matrix} \right)$

其中$\vec v \in \mathbb R^{n-1}, \tilde C \in\mathbb R^{(n-1)\times (n-1)} $。由$C$的定义，不难得到：

$\begin{aligned} \vec e_1^T C \vec e &= \left(\begin{matrix}1 & 0 & \ldots & 0\end{matrix}\right) \left( \begin{matrix} c_{11} & \vec v^T \\ \vec v & \tilde C \end{matrix} \right) \left(\begin{matrix}1 \\ 0 \\ \ldots \\ 0 \end{matrix}\right)\\ &=c_{11}\\ &>0 \end{aligned}$

其中最后一个不等号是因为正定性。回顾高斯消元法，这说明我们不需要对第一列选主元，那么使用高斯消元法，我们可以找到forward substitution矩阵$E$，其中

$E= \left( \begin{matrix} 1/\sqrt{c_{11}} & \vec 0^T \\ \vec r & I_{(n-1)\times (n-1)} \end{matrix} \right)$

使得

$EC=\left( \begin{matrix} \sqrt{c_{11}} & \vec v^T /\sqrt{c_{11}} \\ \vec 0 & D \end{matrix} \right)$

其中$ D \in\mathbb R^{(n-1)\times (n-1)} $。接着，由$C$的对称性，考虑使用列变换：

$\begin{aligned} EC E^T &= \left( \begin{matrix} \sqrt{c_{11}} & \vec v^T /\sqrt{c_{11}} \\ \vec 0 & D \end{matrix} \right) \left( \begin{matrix} 1/\sqrt{c_{11}} & \vec r \\ \vec 0^T & I_{(n-1)\times (n-1)} \end{matrix} \right)\\ &= \left( \begin{matrix} 1 & \vec 0 \\ \vec 0 & D \end{matrix} \right) \end{aligned}$

不难发现$D$也是正定对称矩阵，对$D$重复这个过程，最终不难得到

$(E_k...E_1) C (E_k...E_1)^T =I \\ C=(E_k...E_1)^{-1}((E_k...E_1)^{-1})^T$

记

$L=(E_k...E_1)^{-1}$

那么

$C=LL^T$

注意到上述$L$并不唯一——对于正交矩阵$Q$，我们有

$C=LQ Q^T L^T=(LQ )(LQ )^T$

所以上述分解有无数种形式，特别的，如果我们取$L$为下三角矩阵，那么

$C=LL^T$

被称为Cholesky分解，下面推导Cholesky分解的具体形式。

由定义，我们有

$\left( \begin{matrix} L_{11} & 0 & \ldots &0 \\ L_{21} & L_{22} &\ldots &0 \\ \vdots & \vdots &\ddots &0 \\ L_{n1} & L_{n2} & \ldots & L_{nn} \\ \end{matrix} \right) \left( \begin{matrix} L_{11} & L_{21} & \ldots & L_{n1} \\ 0 & L_{22} &\ldots &L_{2n} \\ \vdots & \vdots &\ddots &\vdots \\ 0 & 0 & \ldots & L_{nn} \\ \end{matrix} \right)=C$

考虑$C_{ij}$，我们有

$C_{ij}=\sum_{k=1}^j L_{ik}L_{kj}=\sum_{k=1}^j L_{ik}L_{jk}, j\le i$

所以

$L_{ij}=\Big(C_{ij}-\sum_{k=1}^{j-1} L_{ik}L_{jk} \Big)/ L_{jj}, j<i$

以及

$L_{ii}=\sqrt{C_{ii}-\sum_{k=1}^{i-1}L_{ik}^2}, j=i$

所以，对$i,j$做循环即可计算得到$L_{ij}$，伪代码如下：

// Takes as input an n-by -n matrix A[i,j]
// Edits A in place to obtain the Cholesky factorization in its lower triangle
for i from 1 to n {
    // Back - substitute to find l_i
    for j from 1 to i -1 { // element j of l_i
        sum = 0;
        for k from 1 to j -1
    		sum += A[i,k]*A[j,k];
    	A[i,j] = (A[i,j]-sum )/A[j,j];
    }
    // Apply the formula for l_kk
    normSquared = 0
    for k from 1 to i -1
    	normSquared += A[i,k ]^2;
    A[i,i] = sqrt (A[i,i] - normSquared );
}