CS236 Deep Generative Models Lecture 3

课程主页：https://deepgenerativemodels.github.io/

课件资料：https://github.com/Subhajit135/CS236_DGM，https://github.com/deepgenerativemodels/notes

视频地址：https://www.bilibili.com/video/av81625948?from=search&seid=4636291486683332935

这里回顾CS236 Lecture 3的课程内容，这一讲介绍了自回归模型。

Autoregressive Models

例子：MNIST

考虑MNIST数据集$\mathcal D$：

每个图片有$n=28 \times 28 =784$个像素，每个像素为$0$或$1$。我们希望学习一个概率分布$p(v)=p\left(v_{1}, \cdots, v_{784}\right)$，其中$v \in\{0,1\}^{784}$；该概率分布应该有如下效果：如果$v \sim p(v)$，那么$v$看起来像数字。具体思路是定义模型族$\left\{p_{\theta}(v), \theta \in \Theta\right\}$，然后根据训练集$\mathcal D$学习参数$\theta$，后续会讨论几个具体的想法。

Fully Visible Sigmoid Belief Network

我们可以按照一个次序顺序产生图片，例如$1, 2,\ldots, 784$的顺序，利用链式分解得到：

$p\left(v_{1}, \cdots, v_{784}\right)=p\left(v_{1}\right) p\left(v_{2} | v_{1}\right) p\left(v_{3} | v_{1}, v_{2}\right) \cdots p\left(v_{n} | v_{1}, \cdots, v_{n-1}\right)$

现在我们假设

$\begin{aligned} p\left(v_{1}, \cdots, v_{784}\right)=p_{\mathrm{CPT}}\left(v_{1} ; \alpha^{1}\right) p_{\text {logit}}\left(v_{2} | v_{1} ; \boldsymbol{\alpha}^{2}\right) p_{\text {logit}}\left(v_{3} | v_{1}, v_{2} ; \boldsymbol{\alpha}^{3}\right) \cdots p_{\text {logit}}\left(v_{n} | v_{1}, \cdots, v_{n-1} ; \boldsymbol{\alpha}^{n}\right) \end{aligned}$

其中

$\begin{array}{l} p_{\mathrm{CPT}}\left(V_{1}=1 ; \alpha^{1}\right)=\alpha^{1}, p\left(V_{1}=0\right)=1-\alpha^{1} \\ p_{\text {logit}}\left(V_{2}=1 | v_{1} ; \boldsymbol{\alpha}^{2}\right)=\sigma\left(\boldsymbol{\alpha}_{0}^{2}+\boldsymbol{\alpha}_{1}^{2} v_{1}\right) \\ p_{\text {logit}}\left(V_{3}=1 | v_{1}, v_{2} ; \boldsymbol{\alpha}^{3}\right)=\sigma\left(\boldsymbol{\alpha}_{0}^{3}+\alpha_{1}^{3} v_{1}+\boldsymbol{\alpha}_{2}^{3} v_{2}\right) \end{array}$

更一般的，我们有

$\hat{v}_{i}=p\left(V_{i}=1 | v_{1}, \cdots, v_{i-1} ; \boldsymbol{\alpha}^{i}\right)=p\left(V_{i}=1 | v_{<i} ; \boldsymbol{\alpha}^{i}\right)=\sigma\left(\alpha_{0}^{i}+\sum_{j=1}^{i-1} \alpha_{j}^{i} v_{j}\right)$

即每个像素服从伯努利分布，其中参数值和之前的像素值有关。

在上述假设下，需要的参数数量为

$1+2+3 \cdots+n \approx n^{2} / 2$

整个模型的图示如下：

这种模型的效果如下：

NADE: Neural Autoregressive Density Estimation

该模型是利用神经网络对之前模型进行了改进：

$\begin{aligned} \mathbf{h}_{i} &=\sigma\left(A_{i} \mathbf{v}_{<i}+\mathbf{c}_{i}\right) \\ \hat{v}_{i}=p(v_{i} | v_{1}, \cdots, v_{i-1} ; \underbrace{A_{i}, \mathbf{c}_{i}, \boldsymbol{\alpha}_{i}, b_{i}}_{\text {parameters }})&=\sigma\left(\boldsymbol{\alpha}_{i} \mathbf{h}_{i}+b_{i}\right) \end{aligned}$

更具体的：

$\begin{aligned} \mathbf{h}_{2}&=\sigma\left(\underbrace{(:)}_{A_{2}} v_{1}+\underbrace{(:)}_{c_{2}}\right) \\ \mathbf{h}_{3}&=\sigma\left(\underbrace{(\vdots)}_{A_{3}}\left(v_{1} v_{2}\right)+\underbrace{(:)}_{c_{3}}\right) \end{aligned}$

为了减少参数的数量，可以使用权重共享的方法：

$\begin{aligned} \mathbf{h}_{i}&=\sigma\left(W_{\cdot,<i} \mathbf{v}_{<i}+\mathbf{c}\right) \\ \hat{v}_{i}&=p\left(v_{i} | v_{1}, \cdots, v_{i-1}\right)=\sigma\left(\boldsymbol{\alpha}_{i} \mathbf{h}_{i}+b_{i}\right) \end{aligned}$

假设$W \in \mathbb{R}^{H \times n}$，那么权重的数量为$O(nH)$。

这种模型的效果如下：

一般的离散分布

对于一般的离散分布，需要使用softmax函数

$\operatorname{softmax}(\mathbf{a})=\operatorname{softmax}\left(a^{1}, \cdots, a^{K}\right)=\left(\frac{\exp \left(a^{1}\right)}{\sum_{i} \exp \left(a^{i}\right)}, \cdots, \frac{\exp \left(a^{K}\right)}{\sum_{i} \exp \left(a^{i}\right)}\right)$

RNADE

之前讨论的是输出为离散的情形，那么对连续随机变量$V_{i} \in \mathbb{R}$，应该如何建模呢？课程中介绍了高斯混合模型：

$\begin{aligned} p\left(\mathbf v_{i} |\mathbf v_{1}, \cdots,\mathbf v_{i-1}\right) &=\sum_{j=1}^{K} \frac{1}{K} \mathcal{N}\left(\mathbf v_{i} ; \mu_{i}^{j}, \sigma_{i}^{j}\right) \\ \mathbf{h}_{i}&=\sigma\left(W_{\cdot,<i} \mathbf{v}_{<i}+\mathbf{c}\right) \\ \hat{\mathbf {v}}_{i}&=\left(\mu_{i}^{1}, \cdots, \mu_{i}^{K}, \sigma_{i}^{1}, \cdots, \sigma_{i}^{K}\right)=f\left(\mathbf{h}_{i}\right) \end{aligned}$

上述介绍的模型都是autoregressive模型，因为后一时刻的值都和之前时刻的值相关。

Autoencoders

Autoencoder分为encoder $e(.)$和decoder $d(.)$，其中效果为$d(e(x)) \approx x$。一般的autoencoder不是生成模型，因为并没有定义概率分布。那么该如何从autoencoder构造一个生成模型呢？

MADE: Masked Autoregressive density estimator

如果我们使autoencoder变成autoregressive模型，那么自然可以变成生成模型；而autoregressive模型最重要的是顺序，Masked Autoregressive density estimator即做到了这点：

以上图为例，序号为$i$的单元只依赖于上一层序号小于等于$i$的单元。