熵的内容总结
参考资料:https://www.fi.muni.cz/~xbouda1/teaching/current/IV111/prednasky/lecture5.pdf
在学习信息论过程中发现熵的内容少了一点,找到一个不错的课件加以补充,这里进行总结。
备注:后续讨论都在离散情形下进行。
不确定性和熵
熵的直觉
给定概率分布$\left\{p_{1}, p_{2}, \ldots, p_{n}\right\}$,现在要定义一个衡量不确定性的度量,记为$H\left(p_{1}, p_{2}, \ldots, p_{n}\right)$,我们希望该函数满足如下条件:
均匀分布给出最大的不确定性,即当$p_{1}=\cdots=p_{n}=1 / n$时,$H\left(p_{1}, \ldots p_{n}\right)$取最大值
不确定性和概率的顺序无关,即对于任意置换$\pi:\{1 \ldots n\} \rightarrow\{1 \ldots n\}$,我们有$H\left(p_{1}, p_{2}, \ldots, p_{n}\right)=H\left(p_{\pi(1)}, p_{\pi(2)} \ldots, p_{\pi(n)}\right)$
不确定性非负:$H\left(p_{1}, p_{2}, \ldots, p_{n}\right) \geq 0$,当且仅当存在某个$p_i=1$时取等号
如果增加一个概率为$0$的结果,那么不改变不确定性,$H\left(p_{1}, \ldots, p_{n}, 0\right)=H\left(p_{1}, \ldots, p_{n}\right)$
最大值的单调性:
连续性:$H(p_1,\ldots,p_n)$关于$p_i$连续
独立性:
分解性:记$p=\sum_{i=1}^{m} p_{i},q=\sum_{i=m+1}^{m+n} p_{i}$,那么
可以证明,满足上述条件的$H$形式如下:
为了比例系数,我们通常取$a=2$,于是得到如下定义。
熵的定义
对于概率分布为$p(x)$的随机变量$X$,其香农熵定义为:
注:不加说明的情况下,没有下标表示底数为$2$。
不难发现
联合和条件熵
联合熵
给定联合概率分布$p(x,y)$,联合熵定义为
同样可以将其改写为期望的形式:
条件熵
定义
条件熵定义为
链式法则
利用条件概率恒等式:
我们有
所以
由对称性可得
推论:
相对熵和互信息
相对熵(DL散度)
概率分布$p(x),q(x)$的相对熵(DL散度)定义为
互信息
互信息$I(X;Y)$定义为
互信息满足如下性质:
证明:
另一方面,利用恒等式
可得
注意到
所以
推论:
证明:
所以
互信息,熵,联合熵的关系可以由下图概括:
熵和互信息的性质
熵的链式法则
利用条件概率的链式法则即可:
所以
两边取期望即可得到结论。
同理由条件熵的链式法则:
条件互信息
条件互信息由下式定义:
利用条件互信息,可得互信息的链式法则:
证明:
利用熵以及条件熵的链式法则可得
所以
条件相对熵
条件相对熵定义为
条件相对熵也有链式法则:
证明:
信息不等式
相对熵(DL散度)不等式
当且仅当$p(x) =q(x)$时等号成立。
令
利用Jenson不等式,我们有
取$u=\frac {q(x)}{p(x)}$,概率分布为$p(x)$,那么
当且仅当$p(x) =q(x)$时等号成立。
互信息非负
当且仅当$p(x,y)=p(x)p(y)$时等号成立。
证明:
当且仅当$p(x, y)=p(x) p(y)$时等号成立。
条件相对熵(DL散度)不等式
当且仅当$p(y | x)=q(y | x)$时等号成立。
证明:
注意到
当且仅当$p(y | x)=q(y | x)$时等号成立。
所以
另证:直接使用相对熵的性质即可。
条件互信息非负
当且仅当$p(x,y|z)=p(x|z)p(y|z)$时等号成立。
证明:
当且仅当$p(x,y|z)=p(x|z)p(y|z)$时等号成立。
熵的极大值
等号成立当且仅当$X$在$\text{lm}(X)$上是均匀分布。
证明:
取
那么
当且仅当$p(x)=u(x)$时取等号。
熵不等式
当且仅当$p(x,y)=p(x)p(y)$时等号成立。
证明:
当且仅当$p(x,y)=p(x)p(y)$时等号成立。
联合熵的上界
证明:
利用下式
我们有可得