CS205A Lecture 2 Linear systems and LU

课程主页：https://graphics.stanford.edu/courses/cs205a-13-fall/schedule.html

这次回顾第二讲，这一讲主要讨论了线性方程组的求解以及LU分解。

Chapter 2 线性系统和LU分解

线性系统的可求解性

线性方程组的形式如下：

$\begin{aligned} A\vec x &=\vec b \\ A& \in \mathbb R^{m\times n}\\ \vec x& \in \mathbb R^{ n}\\ \vec b& \in \mathbb R^{m} \end{aligned}$

解的情形一共以下三种：

唯一解：
$\left( \begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix} \right) \left( \begin{matrix} x \\ y \end{matrix} \right) =\left( \begin{matrix} -1 \\ 1 \end{matrix} \right)$
无解：
$\left( \begin{matrix} 1 & 0 \\ 1 & 0 \end{matrix} \right) \left( \begin{matrix} x \\ y \end{matrix} \right) =\left( \begin{matrix} -1 \\ 1 \end{matrix} \right)$
无穷多组解：
$\left( \begin{matrix} 1 & 0 \\ 1 & 0 \end{matrix} \right) \left( \begin{matrix} x \\ y \end{matrix} \right) =\left( \begin{matrix} -1 \\ -1 \end{matrix} \right)$

这一讲我们只讨论$A$是可逆方阵的情形。注意求解线性方程组并不需要计算$A^{-1}$，这是因为$A^{-1}$的计算成本太大。

消元法

课程中老师演示了消元法求解线性方程组的过程，其中只涉及到三种操作：

对调矩阵中某两行。
用非零常数乘以矩阵的某一行。
将矩阵的某一个行乘以常数$c$后加到另一行。

这三种操作对应了三种矩阵：

置换

假设$e_i $是$m$维向量，且$e_i$第$i$个元素为$1$，其余元素都为$0$，定义如下置换映射（该映射为双射）：

$\sigma:\{1,...,m\}\to \{1,...,m\}$

那么第一种操作对应的矩阵为：

$P_{\sigma} = \left( \begin{matrix} \vec e_{\sigma(1)}^T \\ \vec e_{\sigma(2)}^T \\ \ldots \\ \vec e_{\sigma(m)}^T \end{matrix} \right)$

伸缩

第二种操作对应的矩阵为：

$S_a =\text{diag} \{a_1,a_2,...,a_m\}$

消除

对第$k$行乘以$c$加到第$l$行对应的矩阵为：

$E= I+c \vec e_l \vec e_k^T$

注意以上三种矩阵都可可逆。

消元法可以用左乘这些矩阵来代替，用$E$表示上述三种矩阵，所以消元的过程可表示为

$E_k...E_1 A\vec x = E_k...E_1 \vec b$

最后我们的结果是

$E_k...E_1 A=I$

从而

$\vec x = E_k...E_1 \vec b$

因此

$A= E_{1}^{-1}...E_{k}^{-1}$

高斯消元法

将消元法稍作总结即可得到高斯消元法，分为两个步骤，分别是Forward Substitution和Back Substitution。

Forward Substitution

首先得到增广矩阵：

$( A | \vec b) = \left( \begin{array}{cccc|c} \times & \times & \times & \times & \times \\ \times & \times & \times & \times & \times \\ \times & \times & \times & \times & \times \\ \times & \times & \times & \times & \times \\ \end{array} \right)$

利用伸缩操作将第一行第一列的元素变为$1$（这里假设这个步骤可行），得到

$\left( \begin{array}{cccc|c} 1 & \times & \times & \times & \times \\ \times & \times & \times & \times & \times \\ \times & \times & \times & \times & \times \\ \times & \times & \times & \times & \times \\ \end{array} \right)$

用第三类变化将第一列的其余元素都变为$0$可得

$\left( \begin{array}{cccc|c} 1 & \times & \times & \times & \times \\ 0 & \times & \times & \times & \times \\ 0 & \times & \times & \times & \times \\ 0 & \times & \times & \times & \times \\ \end{array} \right)$

对其余每列重复该操作，最终得到

$\left( \begin{array}{cccc|c} 1 & \times & \times & \times & \times \\ 0 & 1 & \times & \times & \times \\ 0 & 0 & 1 & \times & \times \\ 0 &0 & 0 & 1 & \times \\ \end{array} \right)$

Forward Substitution最终结果得到的是上三角矩阵，接下的步骤是Back Substitution。

Back Substitution

Back Substitution的步骤是将上三角矩阵变成单位阵，首先对最后一列进行操作：

$\left( \begin{array}{cccc|c} 1 & \times & \times & 0 & \times \\ 0 & 1 & \times &0 & \times \\ 0 & 0 & 1 & 0 & \times \\ 0 &0 & 0 & 1 & \times \\ \end{array} \right)$

重复此步骤最终得到

$\left( \begin{array}{cccc|c} 1 & 0 & 0 & 0 & \times \\ 0 & 1 & 0 &0 & \times \\ 0 & 0 & 1 & 0 & \times \\ 0 &0 & 0 & 1 & \times \\ \end{array} \right)$

最后一列即为方程组的解，整个过程的算法如下：

接着分析算法时间复杂度，注意每一步操作都是对一整行进行，所以每一步操作的时间复杂度为$O(n)$，因为一共有$O(n^2)$个步骤，所以算法的时间复杂度为$O(n^3)$。

分析

高斯消元法会带来一定的问题，首先考虑下例

$\left( \begin{matrix} 0 & 1 \\ 1 & 0 \end{matrix} \right)$

显然之前的算法无法处理上述情形。接着考虑下例

$\left( \begin{matrix} \epsilon & 1 \\ 1 & 0 \end{matrix} \right)$

利用之前的算法，我们会得到

$\left( \begin{matrix} 1 & \frac 1\epsilon \\ 0& -\frac 1\epsilon \end{matrix} \right)$

因此我们会得到$\frac 1 \epsilon $的项，如果$\epsilon $非常小，那么$\frac 1 \epsilon $会非常大，这就会产生误差。

解决上述问题的方法是选主元：即交换行和列以避免除以很小的数或零，选主元有两个主要策略：

1.部分主元：交换行，使得当前列绝对值最大的元素出现在对角线位置。
2.全局主元：交换行列，使得绝对值最大的元素出现在对角线位置。

如果我们有一系列线性方程组：

$A\vec x =\vec b_1\\ A\vec x =\vec b_2\\ \vdots$

因为对$A$的操作相同，所以可以将上述方程组合并为

$A\vec x = (\vec b_1 ,\vec b_2,...,)$

这样可以减少很多重复操作。

$LU$分解

首先考虑对上三角矩阵进行高斯消元法：

$\left( \begin{array}{cccc|c} 1 & \times & \times & \times & \times \\ 0 & 1 & \times & \times & \times \\ 0 & 0 & 1 & \times & \times \\ 0 &0 & 0 & 1 & \times \\ \end{array} \right)$

由之前的算法可知，一共要循环$n$次，注意到这里为上三角矩阵，所以每一轮迭代的时间复杂度实际上为$O(n)$（因为不需考虑$0$元素），所以总共的时间复杂度为$O(n^2)$，同理可知，对下三角矩阵使用高斯消元法的时间复杂度也为$O(n^2)$。这个重要的结果是$LU$分解的出发点。

回顾高斯消元法，我们知道Forward Substitution的过程实际上是左乘一些列初等矩阵，得到

$E_k...E_1 A\vec x = E_k...E_1 \vec b$

其中$U=E_k…E_1 A$是上三角矩阵，那么

$A=(E_{1}^{-1}...E_{k}^{-1})U \triangleq LU$

其中

$L= E_{1}^{-1}...E_{k}^{-1}$

注意$E_i$为下三角矩阵，所以$L$也为下三角矩阵，因此$A=LU$将$A$分解为下三角矩阵和上三角矩阵的乘积，所以原方程组即为

$LU \vec x = \vec b$

结合之前的讨论可知，我们可以把原问题拆成两个子问题：

$L\vec y = \vec b\\ U\vec x =\vec y$

因为$L$是下三角矩阵，$U$是上三角矩阵，所以上述算法的时间复杂度为$O(n^2)$。

实现$LU$

作为一个小技巧，我们可以把$L,U$存储到一个矩阵中来减少空间开销，原理很简单，构造对角矩阵$S$，使得$LS$的对角元为$1$，那么

$LU=(LS)(S^{-1}U)$

因为$S$为对角矩阵，所以$LS,S^{-1}U$仍然分别为下三角矩阵和上三角矩阵，最终存储结果如下：

$\left( \begin{matrix} U & U & U & U \\ L & U &U & U \\ L & L & U & U \\ L &L & L & U \\ \end{matrix} \right)$

在不交换行和列来选择主元的条件下，$LU$分解伪代码如下：

// Takes as input an n-by -n matrix A[i,j]
// Edits A in place to obtain the compact LU factorization described above
for pivot from 1 to n {
	pivotValue = A[pivot , pivot ]; // Bad assumption that this is nonzero !
    for eliminationRow from ( pivot +1) to n { // Eliminate values beneath the pivot
        // How much to scale the pivot row to eliminate the value in the current
        // row; notice we 're not scaling the pivot row to 1, so we divide by the
        // pivot value
        scale = A[ eliminationRow , pivot ] / pivotValue ;
        // Since we / subtract / scale times the pivot row from the current row
        // during Gaussian elimination , we / add/ it in the inverse operation
        // stored in L
        A[ eliminationRow , pivot ] = scale ;
        // Now , as in Gaussian elimination , perform the row operation on the rest
        // of the row: this will become U
        for eliminationCol from ( pivot +1) to n
        	A[ eliminationRow , eliminationCol ] -= A[pivot , eliminationCol ] * scale ;
     }
}

代码解释：

因为

$L= E_{1}^{-1}...E_{k}^{-1}$

所以$L$中存储的是$E_i^{-1}$，因为$E_{i}$对应的是减法（消去某行的元素），所以$E_i^{-1}$对应的是加法，这一步对应了

scale = A[ eliminationRow , pivot ] / pivotValue ;
A[ eliminationRow , pivot ] = scale ;

然后

$U=E_k...E_1 A$

对应的代码为

for eliminationCol from ( pivot +1) to n
        A[ eliminationRow , eliminationCol ] -= A[pivot , eliminationCol ] * scale ;