台交大信息论 Lecture 1

课程主页：

老师主页：

http://shannon.cm.nctu.edu.tw/

课程视频：

https://www.youtube.com/playlist?list=PLj6E8qlqmkFsWS54o6gNWeDGXeI7c3eUd

这次回顾第一讲，主要介绍了信息论背后的哲学，对应视频1-2。

概述：信息论背后的哲学

如何度量信息

信息内容的定量定义（概率视角）
- 公理：
  - 事件概率的单调性：如果事件发生的可能性较小，则在事件发生时应携带更多信息，因为不确定事件是否会发生。
  - 可加性：对信息度量具有“可加性”是合理的，即，联合事件的不确定度应等于单个（但不相交）事件的不确定度之和。
  - 连续性：事件概率的小变化仅会导致事件不确定性的小变化。例如，两个事件的概率分别为$0.20001$和$0.19999$，应该合理地拥有可比较的信息内容。
- 可以证明，满足上述公理的“度量”为：
  $事件的自我信息=\log _{2} \frac{1}{\text { event probability }}\text{ bits}$
- 熵定义为信息内容的期望，即
  $\sum_{i}p_i \log_2\frac 1 {p_i}$

Dictionary/codebook/code

发射方和接收方对符号化信息做出的假设，
- 所传送信息的所有“可能符号”都是先验已知的。
- 接收方只是不确定将要接收到哪个符号。
例子：在使用英语的对话中，
- 众所周知，英语词典中的一个词汇将被说出。
- 在收到之前无法分辨是哪一个。
例子：在编码数字通信中，
- codebook（或简称code），所有可能的预定义符号的集合，总是先验已知的（对于接收者）。
- 只是不确定将要接收到哪个。

编码紧凑度的度量

那么不同的编码有什么区别呢？回答是编码的紧凑度。

考虑这个例子，$4$个事件的概率为$\{1 / 2,1 / 4,1 / 8,1 / 8\}$，现在用两种编码表示上述事件：

$\operatorname{code} 1\begin{cases} \text { event one } & : 00\\ \text { event two }&: 01\\ \text { event three }&: 10\\ \text { event four }&: 11 \end{cases}\\ \operatorname{code} 2\begin{cases} \text { event one } & : 0\\ \text { event two }&: 10\\ \text { event three }&: 110\\ \text { event four }&: 111 \end{cases}$

code1的平均码长为

$(1/2)\times 2 + (1/4)\times 2 +(1/8)\times 2 + (1/8)\times 2 =2$

code2的平均码长为

$(1/2)\times 1 + (1/4)\times 2 +(1/8)\times 3 + (1/8)\times 3 =7/4$

计算code2的熵得到

$(1/2)\times 1 + (1/4)\times 2 +(1/8)\times 3 + (1/8)\times 3 =7/4$

所以code2的平均码长等于熵，后续可以证明，一个编码的最优平均码长（不会产生歧义的编码）即为其熵，所以如果根据平均码长来度量，那么code2是最优的编码。

还有一些其他的度量，例如

$L(t):=\frac{1}{t} \log _{2} \sum_{z \in \text { event space }} \operatorname{Pr}(z) 2^{t \cdot \ell(z)}$

以及Renyi熵

$H\left(Z ; \frac{1}{1+t}\right):=\frac{1+t}{t} \log _{2} \sum_{z \in \text { event space }}[\operatorname{Pr}(z)]^{1 /(1+t)}$

这些度量分别对应了在不同评价标准下的最优解，例如对于$L(t)$，不难发现：

$\begin{aligned} \lim _{t \downarrow 0} \frac{1}{t} \log _2 \sum_{z \in \text { event space }} \operatorname{Pr}(z) 2^{t \cdot \ell(z)} & =\sum_{z \in \text { event space }} \operatorname{Pr}(z) \ell(z) \\ & =\text { Average codeword length. } \\ \lim _{t \uparrow \infty} \frac{1}{t} \log _2 \sum_{z \in \text { event space }} \operatorname{Pr}(z) 2^{t \cdot \ell(z)} & =\max _{z \in \text { event space }} \ell(z) \\ & =\text { Maximum codeword length. } \end{aligned}$

噪声通道上的数据传输

由于噪声的存在，所以需要增加了编码冗余以消除噪声。例如，可以使用三遍重复代码：

$\begin{array}{r} * 1 \rightarrow 111 \\ * 0 \rightarrow 000 \end{array}$

上述编码每3个信道比特传送1个信息，说明信息传输效率为$1/3$。

信息传输

整个信息传输系统如下：

源编码器设计

香农的结论告诉我们，

$最小压缩率= \text{entropy of } Z =\sum_{z \in \mathcal{Z}} P_{Z}(z) \log _{|\mathcal{U}|} \frac{1}{P_{Z}(z)}$

并且有如下重要命题：

如果源编码器是最优的，那么输出$\ldots, U_{3}, U_{2}, U_{1}$是在$\mathcal U$上的均匀分布。

考虑之前的例子：

其中源编码器为：

$\operatorname{code} 2\begin{cases} \text { event one } & : 0\\ \text { event two }&: 10\\ \text { event three }&: 110\\ \text { event four }&: 111 \end{cases}$

那么$\mathcal U= \{0,1\}$，考虑第一项为$0$的概率：

$\operatorname{Pr}\left\{U_{1}=0\right\}=\operatorname{Pr}\left\{Z_{1}=e_{1}\right\}=1 / 2$

考虑第二项为$0$的概率：

$\begin{aligned} \operatorname{Pr}\left\{U_{2}=0\right\} &=\operatorname{Pr}\left(Z_{1}=e_{1} \wedge Z_{2}=e_{1}\right)+\operatorname{Pr}\left(Z_{1}=e_{2}\right) \\ &=\operatorname{Pr}\left(Z_{1}=e_{1}\right) \operatorname{Pr}\left(Z_{2}=e_{1}\right)+\operatorname{Pr}\left(Z_{1}=e_{2}\right)\\ &=\frac{1}{2} \times \frac{1}{2}+\frac{1}{4}=\frac{1}{2} \end{aligned}$

类似可以证明

$\operatorname{Pr}\left\{U_{k}=0\right\} =\frac 12$

源编码器和信道编码器的分别设计

源编码器
- 寻找信息性消息的最紧凑的表示形式。
- 源压缩率$=U$的数量$/Z$的数量。
- 所以源压缩率越小越好。
信道编码器
- 根据噪声模式，添加冗余，以便可以可靠地传输源比特。
- 信道码率$=U$的数量$/X$的数量。
- 所以信道码率越大越好。
根据之前介绍的内容，我们假设$\left\{U_{j}\right\}_{j=1}^{m}$服从均匀分布，那么错误率为：
$\text { error }=\frac{1}{|\mathcal{U}|^{m}} \sum_{\left(u_{1}, u_{2}, \ldots, u_{m}\right) \in \mathcal{U}^{m}} \operatorname{Pr}\left\{\operatorname{error} \mid\left(u_{1}, u_{2}, \ldots, u_{m}\right) \text { is transmited }\right\}$

信道容量

对于固定的噪声信道。在信息符号的错误概率任意小的条件下，信道码设计可达到的最大传输效率（即信道码率）是多少？
香农将最大传输效率定义为信道容量，后续会详细介绍。

互信息

观察到良好的信道编码基本上会增加信道输出到信道输入的确定性，尽管在传输开始之前信道输入和信道输出都是不确定的（其中信道输入由传输的信息决定，信道输出是信道输入和噪声的联合结果）。
因此，良好的信道代码设计应在信道输入和输出之间更多地考虑统计上的“共享信息”，以便一旦观察到信道输出，接收器就可以更加确定要传输哪个信道输入。