CS229 Lesson 13 高斯混合模型

课程视频地址：http://open.163.com/special/opencourse/machinelearning.html

课程主页：http://cs229.stanford.edu/

更具体的资料链接：https://www.jianshu.com/p/0a6ef31ff77a

笔记参考自中文翻译版：https://github.com/Kivy-CN/Stanford-CS-229-CN

这一讲介绍EM算法和因子分析，回顾了高斯混合模型。

回顾EM算法

重复直到收敛
- (E步骤)对每个$i$，令
  $Q_i(z^{(i)}) = p(z^{(i)}|x^{(i)};\theta)$
- (M步骤)令
  $\theta:=\arg\max_{\theta} \sum_{i} \sum_{z^{(i)}}{Q_i(z^{(i)})} \log \frac {p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$

我们怎么知道这个算法是否收敛呢？假设$\theta^{(t)}$和$\theta^{(t+1)}$是两次成功迭代得到的参数。我们将证明$l(\theta^{(t)})\le l(\theta^{(t+1)})$，这说明EM算法总是让对数似然函数单调递增。证明这点的关键在于我们对$Q_i$的选择。特别地，当EM算法的参数为$\theta^{(t)}$时，我们将选择$Q_i^{(t)}(z^{(i)}) := p(z^{(i)}|x^{(i)};\theta^{(t)})$。我们之前看到这个选择保证了Jenson不等式的等号成立，因此

$l(\theta^{(t)})= \sum_{i} \sum_{z^{(i)}}Q_i^{(t)}(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\theta^{(t)})}{Q_i^{(t)}(z^{(i)})}$

参数$l(\theta^{(t+1)})$是由最大化该等式的右边得到的，因此

$\begin{eqnarray*} l(\theta^{(t+1)}) &&\ge \sum_{i} \sum_{z^{(i)}}Q_i^{(t)}(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\theta^{(t+1)})}{Q_i^{(t)}(z^{(i)})} \tag 4 \\ &&\ge \sum_{i} \sum_{z^{(i)}}Q_i^{(t)}(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\theta^{(t)})}{Q_i^{(t)}(z^{(i)})}\tag 5 \\ &&=l(\theta^{(t)})\tag 6 \end{eqnarray*}$

第一个不等号成立是因为如下不等式对任意$Q_i$和$\theta$都成立

$l(\theta)\ge \sum_{i} \sum_{z^{(i)}}Q_i(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$

特别地，上式对$Q_i=Q_i^{(t)},\theta = \theta^{(t+1)}$成立。第二个不等号成立是因为我们选择$\theta^{(t+1)}$为

$\arg\max_{\theta} \sum_{i} \sum_{z^{(i)}}Q_i(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$

因此这个式子在$\theta^{(t+1)}$的取值必然大于等于在$\theta^{(t)}$的取值。最后一个等号成立是在选择$Q_i^{(t)}$时我们就是要保证不等号取等号。

因此，EM算法导致对数似然函数单调收敛。在我们对EM算法的描述中，我们说我们将运行直至收敛。根据我们刚刚展示的结果，一个合理的收敛测试为检测在成功迭代一轮后，$l(\theta)$的增量是否小于阈值，如果EM算法增加$l(\theta)$的速度很慢，那么就宣称算法收敛。

注记

如果我们定义

$J(Q,\theta)= \sum_{i} \sum_{z^{(i)}}Q_i(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}$

那么从之前的推导中，我们知道$l(\theta)\ge J(Q,\theta)$。EM算法也可以视为$J$的坐标上升过程，其中E步骤关于Q最大化$J$（因为E步骤选择$Q$使得$l(\theta)= J(Q,\theta)$），$M$步骤关于$\theta$最大化$J$

3.回顾高斯混合模型

有了对EM算法的一般定义，让我们回顾拟合高斯混合模型参数$\phi,\mu,\Sigma$的例子。

E步骤很简单，按照之前推导的算法，我们可以简单计算得到

$w_j^{(i)}= Q_i(z^{(i)}=j)=P(z^{(i)}=j|x^{(i)};\phi,\mu,\Sigma)$

这里，$ Q_i(z^{(i)}=j)$表示在$Q_i$分布下，$z^{(i)}$取$j$的概率。

接着，在M步骤中，我们需要关于参数$\phi,\mu,\Sigma$最大化下式

$\begin{aligned} &\sum_{i=1}^m \sum_{z^{(i)}}Q_i(z^{(i)}) \log \frac {p(x^{(i)},z^{(i)};\phi,\mu,\Sigma)}{Q_i(z^{(i)})} \\ &=\sum_{i=1}^m \sum_{j=1}^kQ_i(z^{(i)}=j) \log \frac{p(x^{(i)}|z^{(i)}=j;\mu,\Sigma)p(z^{(i)}=j;\phi)}{Q_i(z^{(i)}=j)}\\ &=\sum_{i=1}^m \sum_{j=1}^k w_j^{(i)} \log \frac{\frac{1}{(2\pi)^{n/2}|\Sigma_j|^{1/2}}\exp \big(-\frac 1 2(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\big) \phi_j}{w_j^{(i)}} \end{aligned}$

让我们关于$\mu_l$最大化上式。关于$\mu_l$求梯度可得

$\begin{aligned} &\nabla_{\mu_l} \sum_{i=1}^m \sum_{j=1}^k w_j^{(i)} \log \frac{\frac{1}{(2\pi)^{n/2}|\Sigma_j|^{1/2}}\exp \big(-\frac 1 2(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\big) \phi_j}{w_j^{(i)}}\\ &=-\nabla_{\mu_l}\sum_{i=1}^m \sum_{j=1}^k w_j^{(i)} \frac 1 2(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j) \\ &=\frac 1 2 \sum_{i=1}^m w_l^{(i)}\nabla_{\mu_l} (2 \mu_{l}^T \Sigma_l^{-1}x^{(i)}-\mu_{l}^T \Sigma_l^{-1}\mu_{l})\\ &=\sum_{i=1}^m w_l^{(i)}(\Sigma_l^{-1}x^{(i)}-\Sigma_l^{-1}\mu_{l}) \end{aligned}$

令上式为$0$，解出$\mu_l$可以得到更新规则

$\mu_l:= \frac{\sum_{i=1}^m w_l^{(i)} x^{(i)}}{\sum_{i=1}^m w_l^{(i)} }$

这部分我们在之前的讲义中已经见过。

让我们再看一个例子，推导出M步骤更新$\phi_j$的规则。将关于参数$\phi_j$的部分整合起来，我们需要最大化

$\sum_{i=1}^m \sum_{j=1}^k w_j^{(i)}\log \phi_j$

但是，这里有一个额外的限制：$\phi_j$的和为$1$，因为它表示概率$\phi_j=p(z^{(i)}=j;\phi)$。为了处理$\sum_{j=1}^k \phi_j =1$，我们构造拉格朗日函数（注意，这里实际上还有限制$\phi_j \ge0$，但随后我们会发现解满足这个条件）

$\mathcal L(\phi)=\sum_{i=1}^m \sum_{j=1}^k w_j^{(i)}\log \phi_j +\beta(\sum_{j=1}^k \phi_j -1)$

其中$\beta$是拉格朗日乘子。求导可得

$\frac{\partial}{\partial \phi_j}\mathcal L(\phi)= \sum_{i=1}^m \frac{ w_j^{(i)}}{\phi_j} +\beta$

令导数为$0$解得

$\phi_j = \frac{\sum_{i=1}^m w_j^{(i)}}{-\beta}$

即$\phi_j \propto \sum_{i=1}^m w_j^{(i)}$。利用约束条件$\sum_{j=1}^k \phi_j =1$，我们可以轻松发现

$-\beta=\sum_{i=1}^m \sum_{j=1}^k w_j^{(i)}=\sum_{i=1}^m 1 =m$

（这里利用到$w_j^{(i)}=Q_i(z^{(i)}=j)$，然后概率的和为$1$，$ \sum_{j=1}^k w_j^{(i)}=1$）。因此我们得到M步骤更新$\phi_j$的规则

$\phi_j:= \frac 1 m \sum_{i=1}^m w_j^{(i)}$

最后补充$\Sigma_j$的更新规则，将关于参数$\Sigma_j$的部分整合起来

$\frac 1 2 \sum_{i=1}^m \sum_{j=1}^k\Big( \log |\Sigma_j^{-1}|- w_j^{(i)}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\Big)$

注意到如果求出$\Sigma_j^{-1}$的更新规则，那么就可以得到$\Sigma_j$的更新规则，所以关于$\Sigma_j^{-1}$求梯度可得

$\begin{aligned} &\nabla_{\Sigma_j^{-1}} \frac 1 2 \sum_{i=1}^m \sum_{j=1}^k\Big( w_j^{(i)}\log |\Sigma_j^{-1}|-w_j^{(i)}(x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\Big) \\ &= \nabla_{\Sigma_j^{-1}} \frac 1 2 \sum_{i=1}^m \sum_{j=1}^k\Big( w_j^{(i)} \log |\Sigma_j^{-1}|- w_j^{(i)}\text{trace}\big((x^{(i)}-\mu_j)^T\Sigma_j^{-1}(x^{(i)}-\mu_j)\big)\Big) \\ &= \nabla_{\Sigma_j^{-1}} \frac 1 2 \sum_{i=1}^m \sum_{j=1}^k\Big( w_j^{(i)} \log |\Sigma_j^{-1}|- w_j^{(i)}\text{trace}\big(\Sigma_j^{-1}(x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T\big)\Big) \\ &=\frac 1 2 \sum_{i=1}^m \Big( w_j^{(i)}\Sigma_j - w_j^{(i)}(x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T \Big) \end{aligned}$

令导数为$0$可得

$\Sigma_j := \frac{\sum_{i=1}^m w_j^{(i)} (x^{(i)}-\mu_j)(x^{(i)}-\mu_j)^T}{\sum_{i=1}^m w_j^{(i)} }$

这里用到了如下规则：

$\nabla_S \log |S|= \frac 1 {|S|} \nabla_S |S|=\frac 1 {|S|} |S| (S^{-1})^T = (S^{-1})^T \\ \nabla_S b_i^T Sb_i = \nabla_S \text{trace}(b_i^T Sb_i )= \nabla_S \text{trace}(Sb_ib_i^T )=b_ib_i^T$

Part X 因子分析

当我们的数据$x^{(i)}\in \mathbb R^n$来自几个高斯混合模型时，EM算法可以用来拟合混合模型。在这种情形下，我们常常假设有足够多的数据来发现数据中的多元高斯分布结构。这种情形常常发生在训练集样本的数量$m$远远大于数据维度$n$。

现在，考虑$n\gg m$的情形。在这样一个问题中，用一个高斯分布来给数据建模甚至都很困难，更别提高斯混合模型了。特别地，$m$个数据点只张成了$\mathbb R^n$的一个低维子空间，如果我们将用高斯分布给数据建模，然后利用极大似估计来估计均值和协方差，可以得到

$\mu =\frac 1 m \sum_{i=1}^ m x^{(i)}\\ \Sigma =\frac 1 m \sum_{i=1}^m (x^{(i)}-\mu) (x^{(i)}-\mu)^T$

我们会发现矩阵$\Sigma$奇异（不可逆）。这意味着$\Sigma^{-1}$不存在，并且$1/ |\Sigma|^{1/2}= 1/ 0$。但是这两项在计算多元高斯分布时都需要用到。另一种陈述问题的困难性的方法如下，对参数的极大似然估计产生的高斯分布，其概率分布分布在数据张成的仿射空间中，这对应着一个奇异的协方差矩阵。

更一般的，除非$m$超过$n$一定数量，否则均值和协方差的极大似然估计可能很差。然而，我们仍然能用一个合理的高斯模型对数据进行拟合，并且也许能够识别出数据中有趣的协方差结构。我们是如何做到的？

在后面一部分中，我们会从复习两个对于$\Sigma$可能的限制开始，这些限制允许我们用少量的数据来拟合$\Sigma$，但是他们都无法对问题给出满意的解答。接着我们将讨论高斯分布的性质；例如高斯分布的边际分布以及条件分布。最后，我们将展示因子分析模型以及EM算法对其参数的估计。

1.$\Sigma$的限制

如果我们没有充足的数据来拟合完整的协方差矩阵，我们可以对我们考虑的矩阵空间$\Sigma$添加一些约束。例如，我们可以选择拟合一个对角协方差矩阵$\Sigma$。在这种情形下，可以很简单核实协方差矩阵的对角元的最大似然估计满足

$\Sigma_{jj} =\frac 1 m \sum_{i=1}^m (x_j^{(i)}-\mu_j)^2$

因为，$\Sigma_{jj}$就是对数据第$j$个分量方差的经验估计。

有时我们会对协方差矩阵添加更多约束，不仅认为它是对角阵，还认为对角元相同，此时最大似然估计为

$\sigma^2 =\frac 1 {mn} \sum_{j=1}^n\sum_{i=1}^m (x_j^{(i)}-\mu_j)^2$

如果我们对数据拟合一个完整，没有限制的协方差矩阵，为了$\Sigma$的最大似然估计非奇异，必须有$m\ge n+1$。在之前两种约束条件下，当$m\ge 2$时我们就能获得非奇异的$\Sigma$。

但是，将$\Sigma$限制为对角阵意味着对数据的不同分量$x_i,x_j$的建模都是不相关和独立的。通常，获得数据中有趣的相关结构会比较好。如果我们用之前两种限制中任何一种，我们将无法做到这点。在这部分讲义中，我们将介绍因子分析模型，和对角阵相比，它使用更多参数，也捕捉到数据中的相关性，但是又不必拟合完整的协方差矩阵。

2.高斯分布的边际分布和条件分布

在开始描述因子分子之前，我们将讨论多元高斯分布的边际分布和条件分布。

假设我们有一个向量值随机变量

$x=\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right],$

其中$x_1\in \mathbb R^r, x_2 \in \mathbb R^s$，因此$x\in \mathbb R^{r+s}$。假设$x\sim \mathcal N(\mu, \Sigma)$，其中

$\mu=\left[ \begin{matrix} \mu_1 \\ \mu_2 \end{matrix} \right] , \Sigma= \left[ \begin{matrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} &\Sigma_{22} \end{matrix} \right]$

其中，$\mu_1\in \mathbb R^r$，$\mu_2\in \mathbb R^s$，$\Sigma_{11}=\mathbb R^{r\times r}$，$\Sigma_{12}\in \mathbb R^{r\times s}$，以此类推。注意到因为协方差矩阵对称，所以$\Sigma_{12}=\Sigma_{21}^T$。

在我们的假设下，$x_1$和$x_2$的联合分布为多元高斯分布。那么$x_1$的边际分布是什么？此外，给定$x_2$，$x_1$的条件分布是什么？实际上，有如下结论：

$\begin{aligned} &(1)x_1 \sim \mathcal N (\mu_1, {\Sigma}_{11})\\ &(2) x_1 |x_2 \sim \mathcal N(\mu_{1|2},\Sigma_{1|2}) \end{aligned}\\ 其中 \mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(x_2 -\mu_2) \\ \Sigma_{1|2} = \Sigma_{11}- \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$

下面证明上述结论。

令

$B = \left[ \begin{matrix} I_r & -{\Sigma}_{12}{\Sigma}_{22}^{-1}\\ 0 & I_{s} \end{matrix} \right], y=\left[ \begin{matrix} y_1 \\ y_2 \end{matrix} \right] = B\left[ \begin{matrix} x_1 \\ x_2 \end{matrix} \right] = \left[ \begin{matrix} x_1-{\Sigma}_{12}{\Sigma}_{22}^{-1}x_2 \\ x_2 \end{matrix} \right]$

那么

$\begin{aligned} B\Sigma B^T&=\left[ \begin{matrix} I_r & -{\Sigma}_{12}{\Sigma}_{22}^{-1}\\ 0 & I_{s} \end{matrix} \right] \left[ \begin{matrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} &\Sigma_{22} \end{matrix} \right] \left[ \begin{matrix} I_r & 0\\ -{\Sigma}_{22}^{-1}{\Sigma}_{21} & I_{s} \end{matrix} \right]\\ &= \left[ \begin{matrix} \Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21} & 0 \\ {\Sigma}_{21} &\Sigma_{22} \end{matrix} \right] \left[ \begin{matrix} I_r & 0\\ -{\Sigma}_{22}^{-1}{\Sigma}_{21} & I_{s} \end{matrix} \right]\\ &=\left[ \begin{matrix} \Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21} & 0 \\ 0 &\Sigma_{22} \end{matrix} \right]\\ B\left[ \begin{matrix} \mu_1 \\ \mu_2 \end{matrix} \right] &=\left[ \begin{matrix} I_r & -{\Sigma}_{12}{\Sigma}_{22}^{-1}\\ 0 & I_{s} \end{matrix} \right] \left[ \begin{matrix} \mu_1 \\ \mu_2 \end{matrix} \right] = \left[ \begin{matrix} \mu_1- {\Sigma}_{12}{\Sigma}_{22}^{-1}\mu_2\\ \mu_2 \end{matrix} \right] \end{aligned}$

从而

$y=\left[ \begin{matrix} y_1 \\ y_2 \end{matrix} \right]= \left[ \begin{matrix} x_1-{\Sigma}_{12}{\Sigma}_{22}^{-1}x_2 \\ x_2 \end{matrix} \right]\sim \mathcal N(\mu', \Sigma')$

其中

$\mu' =\left[ \begin{matrix} \mu_1'\\ \mu_2' \end{matrix} \right] = B\mu= \left[ \begin{matrix} \mu_1- {\Sigma}_{12}{\Sigma}_{22}^{-1}\mu_2\\ \mu_2 \end{matrix} \right],\\ \Sigma' = B\Sigma B^T=\left[ \begin{matrix} \Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21} & 0 \\ 0 &\Sigma_{22} \end{matrix} \right]$

因此可以看出$y_1, y_2$独立，且

$y_2=x_2 \sim \mathcal N(\mu_2, \Sigma_{22})$

由对称性类似可得

$x_1\sim \mathcal N(\mu_1, \Sigma_{11})$

备注：这里求$x_2$的边际分布而不是$x_1$的边际分布是为了方便求出条件分布。

接下来考虑$ x_1 |x_2$的分布，

$f( x_1 |x_2)= \frac{f(x_1,x_2)}{f(x_2)}$

这里要利用到$B$为正交矩阵，且

$|\Sigma|=|\Sigma'|= |\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21}| |\Sigma_{22}|,\\ \Sigma'^{-1}=\left[ \begin{matrix} (\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21})^{-1} & 0 \\ 0 &\Sigma_{22}^{-1} \end{matrix} \right]$

首先计算分子

$\begin{aligned} f(x_1,x_2) &= \frac{1}{(2\pi)^{\frac {s+r} 2} |\Sigma|^{\frac 1 2}} \exp(-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)) \\ &=\frac{1}{(2\pi)^{\frac {s+r} 2}|\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21}|^{\frac 1 2} |\Sigma_{22}|^{\frac 1 2}} \exp(-\frac{1}{2}(x-\mu)^T B^T (B\Sigma B^T)^{-1}B(x-\mu)) \\ &=\frac{1}{(2\pi)^{\frac {s+r} 2}|\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21}|^{\frac 1 2} |\Sigma_{22}|^{\frac 1 2}} \exp(-\frac{1}{2}(B(x-\mu))^T (B\Sigma B^T)^{-1}(B(x-\mu))) \\ &=\frac{1}{(2\pi)^{\frac {s+r} 2}|\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21}|^{\frac 1 2} |\Sigma_{22}|^{\frac 1 2}} \exp(-\frac{1}{2}(y-\mu')^T {\Sigma'}^{-1}(y-\mu'))\\ &=\frac{1}{(2\pi)^{\frac {s+r} 2}|\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21}|^{\frac 1 2} |\Sigma_{22}|^{\frac 1 2}}\exp(-\frac{1}{2}(y_1-\mu_1')^T {(\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21})}^{-1}(y_1-\mu_1') -\frac 1 2 (y_2-\mu_2')^T \Sigma_{22}^{-1} (y_2-\mu_2')) \end{aligned}$

接着计算分母，之前已经计算过了

$f(x_2)= \frac{1}{ (2\pi)^{\frac s2} |\Sigma_{22}|^{\frac 1 2 }} \exp(-\frac 1 2 x_2^T \Sigma_{22}^{-1} x_2)= \frac{1}{ (2\pi)^{\frac s2}|\Sigma_{22}|^{\frac 1 2 }} \exp(-\frac 1 2 (y_2-\mu_2')^T \Sigma_{22}^{-1} (y_2-\mu_2'))$

因此

$\begin{aligned} f( x_1 |x_2) &=\frac{f(x_1, x_2)}{f(x_2)} \\ &=\frac{1}{(2\pi)^{\frac {r} 2}|\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21}|^{\frac 1 2}} \exp(-\frac{1}{2}(y_1-\mu_1')^T {(\Sigma_{11} -{\Sigma}_{12}{\Sigma}_{11}^{-1}{\Sigma}_{21})}^{-1}(y_1-\mu_1') ) \end{aligned}$

注意到

$\begin{aligned} y_1-\mu_1' &= x_1-{\Sigma}_{12}{\Sigma}_{22}^{-1}x_2- \mu_1+ {\Sigma}_{12}{\Sigma}_{22}^{-1}\mu_2\\ &= x_1 -\mu_1 -{\Sigma}_{12}{\Sigma}_{22}^{-1}(x_2 -\mu_2) \end{aligned}$

从而

$x_1 |x_2 \sim \mathcal N(\mu_{1|2},\Sigma_{1|2})\\ 其中 \mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(x_2 -\mu_2)\\ \Sigma_{1|2} = \Sigma_{11}- \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}$

3.因子分析模型

在因子分析模型中，我们按如下方式在$(x,z)$上建立联合分布，其中$z\in \mathbb R^k$是一个隐变量：

$\begin{aligned} z &\sim \mathcal N(0,I)\\ x|z &\sim \mathcal N(\mu+\Lambda z, \Psi) \end{aligned}$

这里，模型的参数是向量$\mu\in \mathbb R^n$，矩阵$\Lambda \in \mathbb R^{n\times k}$，以及对角阵$\Psi \in \mathbb R^{n\times n}$。$k$的值通常选择为比$n$小。

因此，我们想象每个数据点$x^{(i)}$是如下生成的：首先对$k$维高斯分布$z^{(i)}$取样。然后，通过计算$\mu+\Lambda z^{(i)}$将$z^{(i)}$映射到$\mathbb R^n$的$k$维的仿射子空间。最后，$x^{(i)}$通过对$\mu+\Lambda z^{(i)}$添加协方差噪音$\Psi$生成。

或者等价地，我们可以按如下方式定义因子分析模型

$\begin{aligned} z &\sim \mathcal N(0,I)\\ \epsilon &\sim \mathcal N(0,\Psi)\\ x&=\mu +\Lambda z +\epsilon \end{aligned}$

其中$\epsilon ,z$独立。

让我们看看该模型的准确分布。随机变量$z$和$x$有一个联合高斯分布

$\left[ \begin{matrix} z \\ x \end{matrix} \right] \sim \mathcal N(\mu_{zx}, \Sigma)$

我们现在将计算出$\mu_{zx}$和$\Sigma$

由$z \sim \mathcal N(0,I)$我们知道$\mathbb E[z]=0$。所以，我们有

$\begin{aligned} \mathbb E[x] &=\mathbb E[\mu + \Lambda z +\epsilon]\\ &= \mu+ \Lambda\mathbb E[z] + \mathbb E[\epsilon]\\ &=\mu \end{aligned}$

将上述结果合并，我们有

$\mu_{zx}=\left[ \begin{matrix} \vec 0 \\ \mu \end{matrix} \right]$

接下来，为了得到$\Sigma$，我们需要计算$\Sigma_{zz}=\mathbb E[(z-\mathbb E[z])(z-\mathbb E[z])^T]$（$\Sigma$的左上分块），$\Sigma_{zx}=\mathbb E[(z-\mathbb E[z])(x-\mathbb E[x])^T]$（$\Sigma$的右上分块），以及$\Sigma_{xx}=\mathbb E[(x-\mathbb E[x])(x-\mathbb E[x])^T]$（$\Sigma$的右下分块）。

因为$z \sim \mathcal N(0,I)$，我们可以轻松得到$\Sigma_{zz}=\text{Cov}(z)=I$。并且，我们有

$\begin{aligned} \mathbb E[(z-\mathbb E[z])(x-\mathbb E[x])^T] &= \mathbb E[z(\mu + \Lambda z +\epsilon-\mu)^T] \\ &=\mathbb E[zz^T]\Lambda^T + \mathbb E[z\epsilon^T] \\ &=\Lambda^T \end {aligned}$

最后一步中，我们利用到$\mathbb E[zz^T]=\text{Cov}(z)$的事实（因为$z$的均值为$0$），以及$ \mathbb E[z\epsilon^T]= \mathbb E[z]\mathbb E[\epsilon^T]=0$（因为$z$和$\epsilon$独立，所以乘积的期望等于期望的乘积）。类似的，我们可以按如下方式计算出$\Sigma_{xx}$

$\begin{aligned} \mathbb E[(x-\mathbb E[x])(x-\mathbb E[x])^T] &= \mathbb E[(\mu + \Lambda z +\epsilon-\mu)(\mu + \Lambda z +\epsilon-\mu)^T]\\ &= \mathbb E[\Lambda zz^T \Lambda^T+\epsilon z^T\Lambda^T+\Lambda z\epsilon^T + \epsilon\epsilon^T] \\ &=\Lambda\mathbb E[ zz^T]\Lambda^T +\mathbb E[\epsilon\epsilon^T] \\ &=\Lambda\Lambda^T +\Psi \end{aligned}$

将所有内容整合起来，我们得到

$\left[ \begin{matrix} z \\ x \end{matrix} \right] \sim \mathcal N \Big(\left[ \begin{matrix} \vec 0 \\ \mu \end{matrix} \right], \left[ \begin{matrix} I& \Lambda^T \\ \Lambda & \Lambda\Lambda^T+\Psi \end{matrix} \right] \Big)$

我们还能发现$x$的边际分布为$x\sim \mathcal N(\mu,\Lambda\Lambda^T+\Psi)$。因此，给定训练集$\{x^{(i)};i=1,…,m\}$，参数的对数似然函数如下：

$l(\mu,\Lambda, \Psi)= \log \prod_{i=1}^m \frac{1}{(2\pi)^{n/2}|\Lambda\Lambda^T+\Psi|^{1/2}}\exp \Big( -\frac 1 2 (x^{(i)}-\mu)^T(\Lambda\Lambda^T+\Psi)^{-1}(x^{(i)}-\mu) \Big)$

为了进行最大似然估计，我们想关于参数最大化上式。但是精确地对上式最大化很困难，并且我们知道没有算法能以解析形式求出参数。所以，取而代之，我们将使用EM算法。在下一部分，我们将推导因子分析的EM算法。