课程主页:https://ocw.nctu.edu.tw/course_detail-c.php?bgid=8&gid=0&nid=612&pid=973

http://shannon.cm.nctu.edu.tw/it18.htm

老师主页:http://shannon.cm.nctu.edu.tw/

课程视频:https://www.youtube.com/playlist?list=PLj6E8qlqmkFsWS54o6gNWeDGXeI7c3eUd

这次回顾第四讲,这一讲主要介绍了各种和熵相关的概念,对应视频8-9。

自信息

  • 自信息,用$\mathcal I(E)$表示,是学习事件$E$所获得的信息
  • 自信息满足三个公理
    1. $\mathcal I(E)$是关于概率$p_E$的递减函数,即$\mathcal{I}(E)=I\left(p_{E}\right), I$在$[0,1]$递减
    2. $I(p_E)$连续
    3. 如果$E_{1} \perp E 2$,其中$\perp$表示独立,那么$\mathcal{I}\left(E_{1} \cap E_{2}\right)=\mathcal{I}\left(E_{1}\right)+\mathcal{I}\left(E_{2}\right)$,即$I\left(p_{E_{1}} \times p_{E_{2}}\right)=I\left(p_{E_{1}}\right)+I\left(p_{E_{2}}\right)$
  • 可以证明,满足上述条件的函数一定为$I(p)=-c \cdot \log _{b}(p)$,可以总结为如下定理。
    • 一般我们取$c=1,b=2$,通常省略下标$b$。

定理

定义在$p \in(0,1]$上,并且满足如下$3$个条件的唯一函数为$I(p)=-c \cdot \log _{b}(p)$,其中$c>0, b>1$

  1. $I(p)$递减
  2. $I(p)$在$(0, 1]$连续
  3. $I\left(p_{1} \times p_{2}\right)=I\left(p_{1}\right)+I\left(p_{2}\right)$

证明分为以下三个步骤:

步骤1:证明$I(p)=-c \cdot \log _{b}(p)$对于$p=1/n$成立。

步骤2:证明$I(p)=-c \cdot \log _{b}(p)$对于$p$为有理数成立。

步骤3:证明$I(p)= -c \cdot \log _{b}(p)$对于实数$p$成立。

步骤1

命题:对于$n\in \mathbb Z^+$,

证明:

$(n=1)$利用条件3可得

($n>1$)对于任意正整数$r$,$\exists $非负整数$k$,使得

由条件1可得

由条件3可以将上式化为

利用$I(1 / n)>I(1)=0$

另一方面,对$(1)$取对数可得,$b>1$

因此

令$r\to \infty$得到

其中

步骤2

命题:对于正有理数$p$,

证明:

正有理数$p\in (0, 1]$可以表达为$p=r/s$,其中$r\le s, r,s \in \mathbb Z^{+}$,注意有恒等式:

利用性质3可得

所以

步骤3

对于任意$p\in (0, 1]$,可以利用有理数序列$\{p_n\}$逼近$p$,利用性质2可得

定义

离散随机变量$X$的概率分布为$P_X(.)$,熵用$H(X)$或$H\left(P_{X}\right)$表示,定义为

联合熵

随机变量$(X, Y)$的联合熵$H(X,Y)$定义为

条件熵

已知随机变量$X,Y$,给定$X$,$Y$的条件熵定义为

常用不等式

后续有关熵的内容经常使用如下不等式。

基本不等式(FI)

对于任意$x>0, D>1$,我们有

证明:

然后求导即可证明$f(x)\le 0$,等号成立当且仅当$x=1$。

假设已知

令$x=\frac 1 x$得到

另一个常用不等式为对数-求和不等式(Log-sum inequality)

对数-求和不等式(Log-sum inequality)

对于非负数$a_{1}, a_{2}, \dots, a_{n}$以及$b_{1}, b_{2}, \ldots, b_{n}$,

等号成立当且仅当$(\forall 1 \leq i \leq n)\left(a_{i} / b_{i}\right)=\left(a_{1} / b_{1}\right)$。备注:$D>1$

证明:

等号成立当且仅当$\forall 1 \leq i \leq n$,

性质

链式法则

证明:

利用

可得

链式法则(推广)

如果记$X^{n}:=\left(X_{1}, \ldots, X_{n}\right)$,那么上式可以记为

证明:

利用联合概率的链式分解即可。

条件熵的链式法则

证明:

利用条件概率的链式法则即可。

熵的非负性

证明:

所以

等号成立当且仅当对于某个$x\in \mathcal X$,$P_X(x)=1$。

熵的上界

如果随机变量$X$取值于有限集$\mathcal X$,那么

等号成立当且仅当

说明:均匀分布给出最大熵。

证明:

利用基本不等式即可:

等号成立当且仅当$\forall x\in \mathcal X,|\mathcal{X}| \times P_{X}(x)=1$,即$P_X(.)$在$X$上服从均匀分布。

条件永远不增加熵

等号成立当且仅当$X,Y$独立。

证明:

利用Log-sum不等式即可:

等号成立当且仅当

不难推出该条件等价于$X,Y$独立。

联合熵的上界

等会成立当且仅当$X_i$相互独立。

证明:

利用恒等式

以及

等会成立当且仅当$X_i$相互独立。

独立随机变量的联合熵

如果$X,Y$独立,那么

证明:

利用恒等式

以及前一个结论等号成立条件即可。

一般的,我们有

条件熵的次可加性

等号成立当且仅当

证明:

等号成立当且仅当

互信息

定义

互信息

互信息的定义如下:

图示如下:

条件互信息

性质

基本性质
  1. 等号成立当且仅当$X=f(Y)$

证明都是平凡的,这里从略。

链式法则

图示如下:

证明:

只证明第二项,第一项同理可得。

链式法则(推广)

其中当$i=1$时

证明:

互信息的上界

如果$\left\{\left(X_{i}, Y_{i}\right)\right\}_{i=1}^{n}$满足条件独立假设

那么

等号成立当且仅当$\left\{X_{i}\right\}_{i=1}^{n}$独立。

证明:

等会成立当且仅当$\left\{X_{i}\right\}_{i=1}^{n}$独立。

数据压缩定理

如果$X \rightarrow Y \rightarrow Z$(马氏链),那么$I(X ; Y) \geq I(X ; Z)$。

证明:马氏链性质表明给定$Y$,$X,Z$条件独立,即

由链式法则可得

注意到

我们得到

等号成立当且仅当

定理含义:

压缩只会减少信息。

推论1

对于随机变量$X,Y$以及任意函数$g(Y)$,我们有$X \rightarrow Y \rightarrow g(Y)$,所以

推论2

如果$X \rightarrow Y \rightarrow Z$,那么

证明:

利用恒等式

所以

推论3

如果$X_{1} \rightarrow X_{2} \rightarrow \cdots \rightarrow X_{n}$,那么对于满足$1 \leq i \leq j \leq k \leq l \leq n$的任意$i,j,k,l$,我们有

证明:

已知

考虑

我们有

接着考虑

我们有

所以