台交大信息论 Lecture 4
课程主页:https://ocw.nctu.edu.tw/course_detail-c.php?bgid=8&gid=0&nid=612&pid=973
http://shannon.cm.nctu.edu.tw/it18.htm
老师主页:http://shannon.cm.nctu.edu.tw/
课程视频:https://www.youtube.com/playlist?list=PLj6E8qlqmkFsWS54o6gNWeDGXeI7c3eUd
这次回顾第四讲,这一讲主要介绍了各种和熵相关的概念,对应视频8-9。
自信息
- 自信息,用$\mathcal I(E)$表示,是学习事件$E$所获得的信息
- 自信息满足三个公理
- $\mathcal I(E)$是关于概率$p_E$的递减函数,即$\mathcal{I}(E)=I\left(p_{E}\right), I$在$[0,1]$递减
- $I(p_E)$连续
- 如果$E_{1} \perp E 2$,其中$\perp$表示独立,那么$\mathcal{I}\left(E_{1} \cap E_{2}\right)=\mathcal{I}\left(E_{1}\right)+\mathcal{I}\left(E_{2}\right)$,即$I\left(p_{E_{1}} \times p_{E_{2}}\right)=I\left(p_{E_{1}}\right)+I\left(p_{E_{2}}\right)$
- 可以证明,满足上述条件的函数一定为$I(p)=-c \cdot \log _{b}(p)$,可以总结为如下定理。
- 一般我们取$c=1,b=2$,通常省略下标$b$。
定理
定义在$p \in(0,1]$上,并且满足如下$3$个条件的唯一函数为$I(p)=-c \cdot \log _{b}(p)$,其中$c>0, b>1$
- $I(p)$递减
- $I(p)$在$(0, 1]$连续
- $I\left(p_{1} \times p_{2}\right)=I\left(p_{1}\right)+I\left(p_{2}\right)$
证明分为以下三个步骤:
步骤1:证明$I(p)=-c \cdot \log _{b}(p)$对于$p=1/n$成立。
步骤2:证明$I(p)=-c \cdot \log _{b}(p)$对于$p$为有理数成立。
步骤3:证明$I(p)= -c \cdot \log _{b}(p)$对于实数$p$成立。
步骤1
命题:对于$n\in \mathbb Z^+$,
证明:
$(n=1)$利用条件3可得
($n>1$)对于任意正整数$r$,$\exists $非负整数$k$,使得
由条件1可得
由条件3可以将上式化为
利用$I(1 / n)>I(1)=0$
另一方面,对$(1)$取对数可得,$b>1$
因此
令$r\to \infty$得到
其中
步骤2
命题:对于正有理数$p$,
证明:
正有理数$p\in (0, 1]$可以表达为$p=r/s$,其中$r\le s, r,s \in \mathbb Z^{+}$,注意有恒等式:
利用性质3可得
所以
步骤3
对于任意$p\in (0, 1]$,可以利用有理数序列$\{p_n\}$逼近$p$,利用性质2可得
熵
定义
熵
离散随机变量$X$的概率分布为$P_X(.)$,熵用$H(X)$或$H\left(P_{X}\right)$表示,定义为
联合熵
随机变量$(X, Y)$的联合熵$H(X,Y)$定义为
条件熵
已知随机变量$X,Y$,给定$X$,$Y$的条件熵定义为
常用不等式
后续有关熵的内容经常使用如下不等式。
基本不等式(FI)
对于任意$x>0, D>1$,我们有
证明:
令
然后求导即可证明$f(x)\le 0$,等号成立当且仅当$x=1$。
假设已知
令$x=\frac 1 x$得到
即
另一个常用不等式为对数-求和不等式(Log-sum inequality)
对数-求和不等式(Log-sum inequality)
对于非负数$a_{1}, a_{2}, \dots, a_{n}$以及$b_{1}, b_{2}, \ldots, b_{n}$,
等号成立当且仅当$(\forall 1 \leq i \leq n)\left(a_{i} / b_{i}\right)=\left(a_{1} / b_{1}\right)$。备注:$D>1$
证明:
等号成立当且仅当$\forall 1 \leq i \leq n$,
性质
链式法则
证明:
利用
可得
链式法则(推广)
如果记$X^{n}:=\left(X_{1}, \ldots, X_{n}\right)$,那么上式可以记为
证明:
利用联合概率的链式分解即可。
条件熵的链式法则
证明:
利用条件概率的链式法则即可。
熵的非负性
证明:
所以
等号成立当且仅当对于某个$x\in \mathcal X$,$P_X(x)=1$。
熵的上界
如果随机变量$X$取值于有限集$\mathcal X$,那么
等号成立当且仅当
说明:均匀分布给出最大熵。
证明:
利用基本不等式即可:
等号成立当且仅当$\forall x\in \mathcal X,|\mathcal{X}| \times P_{X}(x)=1$,即$P_X(.)$在$X$上服从均匀分布。
条件永远不增加熵
等号成立当且仅当$X,Y$独立。
证明:
利用Log-sum不等式即可:
等号成立当且仅当
不难推出该条件等价于$X,Y$独立。
联合熵的上界
等会成立当且仅当$X_i$相互独立。
证明:
利用恒等式
以及
等会成立当且仅当$X_i$相互独立。
独立随机变量的联合熵
如果$X,Y$独立,那么
证明:
利用恒等式
以及前一个结论等号成立条件即可。
一般的,我们有
条件熵的次可加性
等号成立当且仅当
证明:
等号成立当且仅当
即
互信息
定义
互信息
互信息的定义如下:
图示如下:
条件互信息
性质
基本性质
等号成立当且仅当$X=f(Y)$
证明都是平凡的,这里从略。
链式法则
图示如下:
证明:
只证明第二项,第一项同理可得。
链式法则(推广)
其中当$i=1$时
证明:
互信息的上界
如果$\left\{\left(X_{i}, Y_{i}\right)\right\}_{i=1}^{n}$满足条件独立假设
那么
等号成立当且仅当$\left\{X_{i}\right\}_{i=1}^{n}$独立。
证明:
等会成立当且仅当$\left\{X_{i}\right\}_{i=1}^{n}$独立。
数据压缩定理
如果$X \rightarrow Y \rightarrow Z$(马氏链),那么$I(X ; Y) \geq I(X ; Z)$。
证明:马氏链性质表明给定$Y$,$X,Z$条件独立,即
由链式法则可得
注意到
我们得到
等号成立当且仅当
定理含义:
压缩只会减少信息。
推论1
对于随机变量$X,Y$以及任意函数$g(Y)$,我们有$X \rightarrow Y \rightarrow g(Y)$,所以
推论2
如果$X \rightarrow Y \rightarrow Z$,那么
证明:
利用恒等式
所以
推论3
如果$X_{1} \rightarrow X_{2} \rightarrow \cdots \rightarrow X_{n}$,那么对于满足$1 \leq i \leq j \leq k \leq l \leq n$的任意$i,j,k,l$,我们有
证明:
已知
考虑
我们有
接着考虑
我们有
所以