CS236 Deep Generative Models Lecture 2

课程主页：https://deepgenerativemodels.github.io/

课件资料：https://github.com/Subhajit135/CS236_DGM，https://github.com/deepgenerativemodels/notes

视频地址：https://www.bilibili.com/video/av81625948?from=search&seid=4636291486683332935

这里回顾CS236 Lecture 2的课程内容，这一讲简单介绍了Representation。

Representation

学习生成模型

我们给定了一组训练样本，例如狗的图片
我们希望学习关于图像$x$的概率分布$p(x)$，使得我们可以进行如下任务：
- 生成：如果我们进行采样$x_{\text{new}} \sim p(x)$，那么$x_{\text{new}}$应该看起来像狗
- 密度估计：如果$x$像狗，那么$p(x)$应该较大；如果不像狗，$p(x)$应该比较小
- 无监督表示学习：我们应该能够学习图像的共同特点（特征），例如耳朵，尾巴
第一个问题：如何表示$p(x)$

联合概率分布的例子

考虑灰度图像的概率分布：$x_{1}, \ldots, x_{n}$为伯努利随机标量，那么一共有$2^n$个状态。假设我们从$p(x_1,\ldots, x_n)$生成图像，那么一共需要的参数数量为

$2^n -1$

显然这样需要的参数太多，需要进行一些模型假设来减少参数。

独立性

如果$X_1,\ldots, X_n$独立，那么

$p\left(x_{1}, \ldots, x_{n}\right)=p\left(x_{1}\right) p\left(x_{2}\right) \cdots p\left(x_{n}\right)$

所以这样只需要$n$个参数，但是该假设过于强，容易生成随机图像：

条件独立性

给定事件$C$，事件$A,B$条件独立，如果

$p(A \cap B | C)=p(A | C) p(B | C)$

给定随机变量$Z$，随机变量$X,Y$条件独立，如果对于$x \in \operatorname{Val}(X), y \in \operatorname{Val}(Y), z \in \operatorname{Val}(Z)$，我们有

$p(X=x \cap Y=y | Z=z)=p(X=x | Z=z) p(Y=y | Z=z)$

记成

$p(X, Y | Z)=p(X | Z) p(Y | Z),X \perp Y | Z$

重要性质

链式法则：假设$S_{1}, \ldots S_{n}$为事件，$p\left(S_{i}\right)>0$
$p\left(S_{1} \cap S_{2} \cap \cdots \cap S_{n}\right)=p\left(S_{1}\right) p\left(S_{2} | S_{1}\right) \cdots p\left(S_{n} | S_{1} \cap \ldots \cap S_{n-1}\right)$
贝叶斯法则：假设$S_1,S_2$为事件，$p\left(S_{i}\right)>0$
$p\left(S_{1} | S_{2}\right)=\frac{p\left(S_{1} \cap S_{2}\right)}{p\left(S_{2}\right)}=\frac{p\left(S_{2} | S_{1}\right) p\left(S_{1}\right)}{p\left(S_{2}\right)}$

条件独立性带来的结构

由链式法则，我们有

$p\left(x_{1}, \ldots, x_{n}\right)=p\left(x_{1}\right) p\left(x_{2} | x_{1}\right) p\left(x_{3} | x_{1}, x_{2}\right) \cdots p\left(x_{n} | x_{1}, \cdots, x_{n-1}\right)$

注意这样的参数数量依然很多，为

$1+2+\cdots+2^{n-1}=2^{n}-1$

现在假设

$X_{i+1} \perp X_{1}, \ldots, X_{i-1} | X_{i}$

那么

$\begin{aligned} p\left(x_{1}, \ldots, x_{n}\right) &=p\left(x_{1}\right) p\left(x_{2} | x_{1}\right) p\left(x_{3} | x_{2}\right) \cdots p\left(x_{n} | x_{n-1}\right) \end{aligned}$

这样只需要$2n-1$个参数

贝叶斯网络

条件独立的推广为贝叶斯网络，定义如下：

贝叶斯网络由有向无环图$G=(V,E)$指定：
- 每个随机变量$X_i$对应一个节点$i\in V$
- 条件概率$p\left(x_{i} | \mathbf{x}_{\mathrm{Pa}(i)}\right)$指定关于父节点的条件概率
图$G=(V,E)$被称为贝叶斯网络的结构
定义联合概率：
$p\left(x_{1}, \ldots x_{n}\right)=\prod_{i \in V} p\left(x_{i} | \mathbf{x}_{\mathrm{Pa}(i)}\right)$

考虑一个具体例子：

那么联合概率为

$\begin{aligned} p\left(x_{1}, \ldots x_{n}\right) &=\prod_{i \in V} p\left(x_{i} | \mathbf{x}_{\mathrm{Pa}(i)}\right) \\ p(d, i, g, s, l) &=p(d) p(i) p(g | i, d) p(s | i) p(l | g) \end{aligned}$

注意利用链式法则，我们有恒等式

$p(d, i, g, s, l)=p(d) p(i | d) p(g | i, d) p(s | i, d, g) p(l | g, d, i, s)$

所以

$D \perp I, \quad S \perp\{D, G\}|I, \quad L \perp\{I, D, S\}| G$

将上述内容推广得到如下结论：

对每个节点$X_v$，在给定其父节点的条件下，$X_v$条件独立于$X_v$的非子孙节点。

简略证明，按照拓扑排序的顺序进行链式分解：

$p\left(x_{1}, \ldots, x_{n}\right)=p\left(x_{1}\right) p\left(x_{2} | x_{1}\right) p\left(x_{3} | x_{1}, x_{2}\right) \cdots p\left(x_{n} | x_{1}, \cdots, x_{n-1}\right)$

然后和

$p\left(x_{1}, \ldots, x_{n}\right)=\prod_{i \in V} p\left(x_{i} | x_{\mathrm{Pa}(i)}\right)$

进行比较即可。

生成模型VS判别模型

判别模型是在给定$X$的条件下，计算$p(Y|X)$，所以不需要对$p(X)$建模，来看一个示意图：

注意$X$为随机向量，将上图打开可得

进行链式分解可得

$\begin{aligned} &p(Y, \mathbf{X})=p(Y) p\left(X_{1} | Y\right) p\left(X_{2} | Y, X_{1}\right) \cdots p\left(X_{n} | Y, X_{1}, \cdots, X_{n-1}\right)\\ &p(Y, \mathbf{X})=p\left(X_{1}\right) p\left(X_{2} | X_{1}\right) p\left(X_{3} | X_{1}, X_{2}\right) \cdots p\left(Y | X_{1}, \cdots, X_{n-1}, X_{n}\right) \end{aligned}$

我们必须做出如下选择：

在生成模型中，$p(Y)$很简单，但是我们该如何对$p\left(X_{i} | \mathbf{X}_{\text{pa}(i)}, Y\right)$进行参数化
在判别模型中，我们如何对$p(Y|X)$进行参数化

后面来看几个具体例子：

朴素贝叶斯

朴素贝叶斯假设$X_{i} \perp X_{-i} | Y$

$X_1,\ldots,X_n$为特征，$Y$为标签，朴素贝叶斯思想假设为给定$Y$，$X_i$条件独立，那么

$p\left(y, x_{1}, \ldots x_{n}\right)=p(y) \prod_{i=1}^{n} p\left(x_{i} | y\right)$

那么根据贝叶斯公式，我们有

$p\left(Y=1 | x_{1}, \ldots x_{n}\right)=\frac{p(Y=1) \prod_{i=1}^{n} p\left(x_{i} | Y=1\right)}{\sum_{y=\{0,1\}} p(Y=y) \prod_{i=1}^{n} p\left(x_{i} | Y=y\right)}$

Logistic回归

$p(Y=1 | \mathbf{x} ; \boldsymbol{\alpha})=\sigma(z(\boldsymbol{\alpha}, \mathbf{x}))$

其中

$\begin{aligned} z(\boldsymbol{\alpha}, \mathbf{x})&=\alpha_{0}+\sum_{i=1}^{n} \alpha_{i} x_{i}\\ \sigma(z)&=1 /\left(1+e^{-z}\right) \end{aligned}$

神经网络

$p_{\text {Neural }}(Y=1 | \mathbf{x} ; \boldsymbol{\alpha}, A, \mathbf{b})=f\left(\alpha_{0}+\sum_{i=1}^{h} \alpha_{i} h_{i}\right)$