参考资料:https://www.fi.muni.cz/~xbouda1/teaching/current/IV111/prednasky/lecture5.pdf

在学习信息论过程中发现熵的内容少了一点,找到一个不错的课件加以补充,这里进行总结。

备注:后续讨论都在离散情形下进行。

不确定性和熵

熵的直觉

给定概率分布$\left\{p_{1}, p_{2}, \ldots, p_{n}\right\}$,现在要定义一个衡量不确定性的度量,记为$H\left(p_{1}, p_{2}, \ldots, p_{n}\right)$,我们希望该函数满足如下条件:

  1. 均匀分布给出最大的不确定性,即当$p_{1}=\cdots=p_{n}=1 / n$时,$H\left(p_{1}, \ldots p_{n}\right)$取最大值

  2. 不确定性和概率的顺序无关,即对于任意置换$\pi:\{1 \ldots n\} \rightarrow\{1 \ldots n\}$,我们有$H\left(p_{1}, p_{2}, \ldots, p_{n}\right)=H\left(p_{\pi(1)}, p_{\pi(2)} \ldots, p_{\pi(n)}\right)$

  3. 不确定性非负:$H\left(p_{1}, p_{2}, \ldots, p_{n}\right) \geq 0$,当且仅当存在某个$p_i=1$时取等号

  4. 如果增加一个概率为$0$的结果,那么不改变不确定性,$H\left(p_{1}, \ldots, p_{n}, 0\right)=H\left(p_{1}, \ldots, p_{n}\right)$

  5. 最大值的单调性:

  6. 连续性:$H(p_1,\ldots,p_n)$关于$p_i$连续

  7. 独立性:

  8. 分解性:记$p=\sum_{i=1}^{m} p_{i},q=\sum_{i=m+1}^{m+n} p_{i}$,那么

可以证明,满足上述条件的$H$形式如下:

为了比例系数,我们通常取$a=2$,于是得到如下定义。

熵的定义

对于概率分布为$p(x)$的随机变量$X$,其香农熵定义为:

注:不加说明的情况下,没有下标表示底数为$2$。

不难发现

联合和条件熵

联合熵

给定联合概率分布$p(x,y)$,联合熵定义为

同样可以将其改写为期望的形式:

条件熵

定义

条件熵定义为

链式法则

利用条件概率恒等式:

我们有

所以

由对称性可得

推论:

相对熵和互信息

相对熵(DL散度)

概率分布$p(x),q(x)$的相对熵(DL散度)定义为

互信息

互信息$I(X;Y)$定义为

互信息满足如下性质:

证明:

另一方面,利用恒等式

可得

注意到

所以

推论:

证明:

所以

互信息,熵,联合熵的关系可以由下图概括:

熵和互信息的性质

熵的链式法则

利用条件概率的链式法则即可:

所以

两边取期望即可得到结论。

同理由条件熵的链式法则:

条件互信息

条件互信息由下式定义:

利用条件互信息,可得互信息的链式法则:

证明:

利用熵以及条件熵的链式法则可得

所以

条件相对熵

条件相对熵定义为

条件相对熵也有链式法则:

证明:

信息不等式

相对熵(DL散度)不等式

当且仅当$p(x) =q(x)$时等号成立。

利用Jenson不等式,我们有

取$u=\frac {q(x)}{p(x)}$,概率分布为$p(x)$,那么

当且仅当$p(x) =q(x)$时等号成立。

互信息非负

当且仅当$p(x,y)=p(x)p(y)$时等号成立。

证明:

当且仅当$p(x, y)=p(x) p(y)$时等号成立。

条件相对熵(DL散度)不等式

当且仅当$p(y | x)=q(y | x)$时等号成立。

证明:

注意到

当且仅当$p(y | x)=q(y | x)$时等号成立。

所以

另证:直接使用相对熵的性质即可。

条件互信息非负

当且仅当$p(x,y|z)=p(x|z)p(y|z)$时等号成立。

证明:

当且仅当$p(x,y|z)=p(x|z)p(y|z)$时等号成立。

熵的极大值

等号成立当且仅当$X$在$\text{lm}(X)$上是均匀分布。

证明:

那么

当且仅当$p(x)=u(x)$时取等号。

熵不等式

当且仅当$p(x,y)=p(x)p(y)$时等号成立。

证明:

当且仅当$p(x,y)=p(x)p(y)$时等号成立。

联合熵的上界

证明:

利用下式

我们有可得