CS236 Deep Generative Models Lecture 7

课程主页：https://deepgenerativemodels.github.io/

课件资料：https://github.com/Subhajit135/CS236_DGM，https://github.com/deepgenerativemodels/notes

视频地址：https://www.bilibili.com/video/av81625948?from=search&seid=4636291486683332935

这里回顾CS236 Lecture 7的课程内容，这一讲介绍了Normalizing Flow Models。

Normalizing Flow Models

Simple Prior to Complex Data Distributions

理想的概率分布应该有如下特点：
- 解析的概率密度
- 易于采样
不幸的是，数据的分布往往更复杂
关键思想：利用变量变换的方法将简单分布映射到复杂分布

Change of Variables formula

一维情形：如果$X=f(Z)$并且$f$单调，反函数为$Z=f^{-1}(X)=h(X)$，那么：
$p_{X}(x)=p_{Z}(h(x))\left|h^{\prime}(x)\right|$
一般情形：假设$Z$和$X$的可逆映射为$\mathbf{f}: \mathbb{R}^{n} \mapsto \mathbb{R}^{n}$，$X=\mathbf f (Z), Z= \mathbf f^{-1} (X)$，那么
$p_{X}(\mathbf{x})=p_{Z}\left(\mathbf{f}^{-1}(\mathbf{x})\right)\left|\operatorname{det}\left(\frac{\partial \mathbf{f}^{-1}(\mathbf{x})}{\partial \mathbf{x}}\right)\right|=p_{Z}(\mathbf{z})\left|\operatorname{det}\left(\frac{\partial \mathbf{f}(\mathbf{z})}{\partial \mathbf{z}}\right)\right|^{-1}$
备注：$X,Z$的维度要相同

Normalizing flow models

考虑观测变量$X$和隐变量$Z$的有向隐变量模型
在normalizing flow model中，$Z$和$X$的之间的映射$\mathbf{f}_{\theta}: \mathbb{R}^{n} \mapsto \mathbb{R}^{n}$是确定性的可逆映射：$X=\mathbf{f}_{\theta}(Z),Z=\mathbf{f}_{\theta}^{-1}(X)$
利用变量变换，$p(x)$的概率分布为：
$p_{X}(\mathbf{x} ; \theta)=p_{Z}\left(\mathbf{f}_{\theta}^{-1}(\mathbf{x})\right) | \operatorname{det}\left(\frac{\partial \mathbf{f}_{\theta}^{-1}(\mathbf{x})}{\partial \mathbf{x}}\right)$

A Flow of Transformations

Flow：可逆变换可以复合 $\mathbf{x} \triangleq \mathbf{z}_{M}=\mathbf{f}_{\theta}^{M} \circ \cdots \circ \mathbf{f}_{\theta}^{1}\left(\mathbf{z}_{0}\right)=\mathbf{f}_{\theta}^{M}\left(\mathbf{f}_{\theta}^{M-1}\left(\cdots\left(\mathbf{f}_{\theta}^{1}\left(\mathbf{z}_{0}\right)\right)\right)\right) \triangleq \mathbf{f}_{\theta}\left(\mathbf{z}_{0}\right)$

Planar flows

Planar flow是可逆变换
$\mathbf{x}=\mathbf{f}_{\theta}(\mathbf{z})=\mathbf{z}+\mathbf{u} h\left(\mathbf{w}^{T} \mathbf{z}+b\right)$
该变换的参数为$\theta=(\mathbf{w}, \mathbf{u}, b)$，其中$h(.)$为非线性函数
雅克比矩阵为
$\begin{aligned} \left|\operatorname{det} \frac{\partial \mathbf{f}_{\theta}(\mathbf{z})}{\partial \mathbf{z}}\right| &=\left|\operatorname{det}\left(I+h^{\prime}\left(\mathbf{w}^{T} \mathbf{z}+b\right) \mathbf{u} \mathbf{w}^{T}\right)\right| \\ &=\left|1+h^{\prime}\left(\mathbf{w}^{T} \mathbf{z}+b\right) \mathbf{u}^{T} \mathbf{w}\right| \end{aligned}$
注意上述行列式要保证非零，例如$h=\tanh ()$

Learning and Inference

在数据集$\mathcal D$通过最大似然法学习 $\max _{\theta} \log p_{X}(\mathcal{D} ; \theta)=\sum_{\mathbf{x} \in \mathcal{D}} \log p_{Z}\left(\mathbf{f}_{\theta}^{-1}(\mathbf{x})\right)+\log \left|\operatorname{det}\left(\frac{\partial \mathbf{f}_{\theta}^{-1}(\mathbf{x})}{\partial \mathbf{x}}\right)\right|$

Triangular Jacobian

注意计算逆矩阵需要需要$O(n^3)$的时间复杂度，所以一个自然的想法是优化这点，这样就要选择特殊的结构。

假设$x_{i}=f_{i}(\mathbf{z})$只依赖于$\mathbf{z} _{\leq i}$，那么

$J=\frac{\partial \mathbf{f}}{\partial \mathbf{z}}=\left(\begin{array}{ccc} \frac{\partial f_{1}}{\partial z_{1}} & \cdots & 0 \\ \cdots & \cdots & \cdots \\ \frac{\partial f_{n}}{\partial z_{1}} & \cdots & \frac{\partial f_{n}}{\partial z_{n}} \end{array}\right)$

在该情形下，雅克比矩阵为下三角阵，这样计算逆矩阵只要$O(n)$的时间复杂度。

上三角情形同理。