课程主页:http://www.inference.org.uk/mackay/itprnn/,http://www.inference.org.uk/itprnn_lectures/

课程视频:https://www.bilibili.com/video/BV14b411G7wn?from=search&seid=1786094286746981315,https://www.youtube.com/watch?v=BCiZc0n6COY&list=PLruBu5BI5n4aFpG32iMbdWoRVAA-Vcso6

课程书籍:https://book.douban.com/subject/1893050/

这次回顾第六讲,第六讲介绍了熵进一步的内容。

备注:笔记参考了中文书籍。

关于熵的更多内容

联合熵

$X,Y$的联合熵

条件熵

已知$y=b_k$时$X$的条件熵

已知$Y$时$X$的条件熵

链式法则

信息量的链式法则

利用条件概率恒等式

可以得到信息量恒等式

熵的链式法则

证明:

同理可得另一个部分的恒等式。

互信息

$X$和$Y$之间的互信息

互信息满足

证明:

利用恒等式

我们有

另一方面

关于互信息,下图概括了几个重要量的关系:

利用互信息非负,我们可得

条件互信息

$z=c_k$时$X$和$Y$之间的条件互信息是在联合总体$P(x,y|z=c_k)$中随机变量$X$和$Y$的互信息

已知$Z$时$X$和$Y$的条件互信息是上述互信息在$z$上的平均值

熵距离

定义熵距离

那么$D_H$满足距离公理:

证明:

1.

2.

注意到

所以

从而

3.

利用下式即可

4.

首先对$D_{H}(X, Y) $进行变形:

另一方面,我们有如下结论(类比$I(X ; Y)=D_{KL}(P(x,y)| P(x)P(y))$)

其中非负是因为

所以可以推出

现在对原不等式进行处理

利用之前的结论可得

此外显然有

所以