课程主页:https://ocw.nctu.edu.tw/course_detail-c.php?bgid=8&gid=0&nid=612&pid=973

http://shannon.cm.nctu.edu.tw/it18.htm

老师主页:http://shannon.cm.nctu.edu.tw/

课程视频:https://www.youtube.com/playlist?list=PLj6E8qlqmkFsWS54o6gNWeDGXeI7c3eUd

这次回顾第三讲,主要回顾概率以及随机过程的知识,对应视频5-7,概率的一部分内容从略。

随机过程的统计属性

$\mathbb T-$不变以及遍历性

事件$E$关于偏移变换$\mathbb{T}: \mathcal{X}^{\infty} \rightarrow \mathcal{X}^{\infty}$被称为$\mathbb T-$不变,如果

其中

如果$E$为$\mathbb T-$不变,那么

补充定义$\mathbb T^{-1}$:

如果满足如下性质(遍历性,对应的集合称为遍历集)

注意此时有

持续作用$\mathbb T$可得

例子

那么

所以$E$是$\mathbb T-$不变。

随机过程的性质

假设随机过程为

  • 无记忆:如果随机变量$\boldsymbol X$的序列是独立同分布(i.i.d.),则称一个随机过程$\boldsymbol X$是无记忆的。
  • 平稳过程:如果每个序列或事件的概率分布随偏移不变,则该过程称为平稳过程(或严平稳过程)。
  • 遍历过程:如果$\mathcal{F}_{X}$中的任何遍历集(满足($\mathbb T^{-1}E= E$))具有$1$或$0$的概率,则该过程称为遍历过程。此定义不是很直观,但是某些解释和示例可能会有所启发。
例子

假设$X_{1}, X_{2}, \cdots, X_{n}, \cdots$是遍历过程,其中$X_n \in \{0,1\}$。令$\Omega$是所有单边零一序列的集合。对$\alpha \in[0,1]$,定义

可以证明,$\bar{E}_{n}(\alpha)$和$\underline{E}_{n}(\alpha)$都是遍历集,即

上述事实是由于上确界和下确界的极限不会因为偏移改变。

逐点遍历定理

考虑一个离散时间平稳随机过程,$\boldsymbol{X}=\left\{X_{n}\right\}_{n=1}^{\infty}$。对于具有有限均值(即$\left|E\left[f\left(X_{n}\right)\right]\right|<\infty$)的$\mathbb R$上的实值函数$f(.)$,存在一个随机变量$\boldsymbol Y$使得

如果该随机过程具有遍历性,那么

该定理说明平稳性加遍历性可以导出我们所熟悉的大数定律。

马尔可夫链

定义

$3$个随机变量$X, Y, Z$是马尔可夫链,如果

这通常表示为

利用定义不难得出

这说明给定$Y$,$X,Z$条件独立,利用这个事实可得$X,Z$对称,所以马尔可夫性也记作

$k$阶马尔可夫性

随机变量序列$\left\{X_{n}\right\}_{n=1}^{\infty}=X_{1}, X_{2}, X_{3}, \ldots$满足$k$阶马尔可夫性,如果

每个$x_{n-k}^{n-1}:=\left(x_{n-k}, x_{n-k+1}, \ldots, x_{n-1}\right) \in \mathcal{X}^{k}$被称为马尔可夫链在时间$n$的状态。

不可约

马尔可夫链是不可约的,如果对所有$x^{k}, y^{k} \in \mathcal{X}^{k}$,存在$j\ge 1$,使得

时不变

马尔可夫链被称为时不变或时齐,如果对每个$n>k$,

所以一阶时齐马尔可夫链可以由转移概率

以及初始状态分布$P_{X_{1}}(x)$决定。

非周期性
  • 在一阶马尔可夫链中,$x\in \mathcal X$的周期$d(x)$定义为

  • 如果对任意$n$,$\operatorname{Pr}\left\{X_{n+1}=x | X_{1}=x\right\}=0$,我们说状态$x$有无限周期,记为$d(x)=\infty$

  • 如果$d(x)=1$,则称状态$x$是非周期的;如果$d(x)>1$,则称状态$x$是周期的。

  • 一阶马尔可夫链被称为非周期的,如果所有状态都是非周期的,即

平稳分布

对于一阶时不变马尔可夫链,$\mathcal X$上的分布$\pi(.)$是平稳分布,如果对每个$y \in \mathcal{X}$,

几者的关系

随机变量序列的收敛

几种收敛性

逐点收敛

普通序列的收敛性,记作

几乎处处收敛
依概率收敛
$r$阶收敛
依分布收敛
几者的关系

收敛的唯一性

  1. 如果$X_{n} \stackrel{p . w.}{\longrightarrow} X,X_{n} \stackrel{p . w.}{\longrightarrow} Y$,那么

  2. $X_{n} \stackrel{a . s .}{\longrightarrow} X, X_{n} \stackrel{a . s .}{\longrightarrow} Y$或$X_{n} \stackrel{p}{\longrightarrow} X, X_{n} \stackrel{p}{\longrightarrow} Y$或$X_{n} \stackrel{L_{r}}{\longrightarrow} X, X_{n} \stackrel{L_{r}}{\longrightarrow} Y$,那么

  3. $X_{n} \stackrel{d}{\longrightarrow} X , X_{n} \stackrel{d}{\longrightarrow} Y$,那么对所有$x$,$F_X(x)=F_Y(y)$

收敛定理
单调收敛定理
控制收敛定理

大数定律

弱大数定理

如果$\left\{X_{n}\right\}_{n=1}^{\infty}$是均值都为$E\left[X_{i}\right]=\mu$的不相关序列,并且

那么

证明:

强大数定律

如果$\left\{X_{n}\right\}_{n=1}^{\infty}$均值都为$E\left[X_{n}\right]=\mu$的独立随机变量,如果

那么

中心极限定理

如果$\left\{X_{n}\right\}_{n=1}^{\infty}$是独立同分布随机变量序列,均值为$\mu$,方差为$\sigma^2$,那么

凸(凹)性,琴生不等式

凸集

$\mathcal{O} \subset \mathbb{R}^{m}$是凸集,如果对$\mathcal O$中每个$\underline{x}=\left(x_{1}, x_{2}, \cdots, x_{m}\right)^{T}$以及$\underline{y}=\left(y_{1}, y_{2}, \cdots, y_{m}\right)^{T}$,对任意$0\le \lambda \le 1$,都有$\lambda \underline{x}+(1-\lambda) \underline{y} \in \mathcal{O}$

凸性

考虑凸集$\mathcal{O} \subset \mathbb{R}^{m}$,$f: \mathcal{O} \rightarrow \mathbb{R}$在集合$\mathcal O$上是凸的,如果对$\mathcal O$中每个$\underline{x}, \underline{y}$以及$0 \leq \lambda \leq 1$,

严格凸,如果等号成立当且仅当$\lambda =0$或$\lambda =1$。

凹性

函数$f$是凹的,如果$-f$是凸的。

琴生不等式

考虑凸集$\mathcal{O} \subset \mathbb{R}^{m}$,$f: \mathcal{O} \rightarrow \mathbb{R}$在集合$\mathcal O$上是凸的,如果$\underline{X}=\left(X_{1}, X_{2}, \cdots, X_{m}\right)^{T}$是$m$维随机变量,那么

拉格朗日乘数法和KKT条件

考虑优化问题

其中

考虑对偶问题

其中$\lambda=\left(\lambda_{1}, \ldots, \lambda_{m}\right),\nu=\left(\nu_{1}, \ldots, \nu_{\ell}\right)$被称为拉格朗日乘子,$L(\boldsymbol{\lambda}, \boldsymbol{\nu})$被称为拉格朗日对偶函数。

当$\lambda_i\ge 0, 1\le i\le m$,

在强对偶条件下,上述不等号变成等号,对应的参数为非负$\tilde {\boldsymbol \lambda}$和$\tilde {\boldsymbol \nu}$,那么

这说明在强对偶条件下,$f(x)$的最小值$f\left(\boldsymbol{x}^{*}\right)$和$L(\tilde{\boldsymbol{\lambda}}, \tilde{\boldsymbol{\nu}})$相同。

KKT条件

在KKT条件下,强对偶性成立,这里有如下前提:

$f(\cdot),\left\{g_{i}(\cdot)\right\}_{i=1}^{m}$都是凸的,$\left\{h_{j}(\cdot)\right\}_{j=1}^{\ell}$是仿射函数,这些函数可微。

KKT条件: