Chapter 2 Asymptotic Analysis笔记 Part 1 (Stanford Machine Learning Theory)
这里回顾第二章的第一部分,这部分主要讨论训练集无限的情况下ERM的理论上界。
课程主页:
课程视频:
课件:
Chapter 2 Asymptotic Analysis
在本章中,我们使用渐近方法(即假设训练样本数$n\to \infty$)来得到ERM的上界。 然后,我们将这些结果实例化为损失函数为最大似然的情况,并讨论渐近的局限性。(在以后的章节中,我们将假设$n$有限并提供非渐近分析。)
2.1 经验风险最小化的渐近
对于ERM的渐进分析,我们希望证明其excess risk有如下上界(其中$c$是依赖于问题的常数):
令$\left\{\left(x^{(1)}, y^{(1)}\right), \cdots,\left(x^{(n)}, y^{(n)}\right)\right\}$是训练集,$\mathcal{H}=\left\{h_\theta: \theta \in \mathbb{R}^p\right\}$是参数化的hypothesis functions集合。$\hat \theta$是ERM的minimizer,$\theta^{\star}$是population risk的minimizer,即:
注意到此时excess risk可以改写为:
那么可以给出如下定理:
定理2.1
假设:
- $\hat{\theta} \stackrel{p}{\rightarrow} \theta^{\star}$,当$n\to \infty$(一致性);
- $\nabla^2 L\left(\theta^{\star}\right)$满秩;
- 其他适当的正则性条件成立;
那么,
- $\sqrt{n}\left(\hat{\theta}-\theta^{\star}\right)=O_P(1)$,即,$\forall \epsilon > 0$,存在$M$,使得$\sup _n \mathbb{P}\left(\left|\sqrt{n}\left(\hat{\theta}-\theta^{\star}\right)\right|_2>M\right)<\epsilon$。(这意味着$\left\{\sqrt{n}\left(\hat{\theta}-\theta^{\star}\right)\right\}$依概率有界。)
- $\sqrt{n}\left(\hat{\theta}-\theta^{\star}\right) \stackrel{d}{\rightarrow} \mathcal{N}\left(0,\left(\nabla^2 L\left(\theta^{\star}\right)\right)^{-1} \operatorname{Cov}\left(\nabla \ell\left((x, y), \theta^{\star}\right)\right)\left(\nabla^2 L\left(\theta^{\star}\right)\right)^{-1}\right)$。
- $n\left(L(\hat{\theta})-L\left(\theta^{\star}\right)\right)=O_P(1)$。
- $n\left(L(\hat{\theta})-L\left(\theta^{\star}\right)\right) \stackrel{d}{\rightarrow} \frac{1}{2}|S|_2^2 \text { where } S \sim \mathcal{N}\left(0,\left(\nabla^2 L\left(\theta^{\star}\right)\right)^{-1 / 2} \operatorname{Cov}\left(\nabla \ell\left((x, y), \theta^{\star}\right)\right)\left(\nabla^2 L\left(\theta^{\star}\right)\right)^{-1 / 2}\right)$。
- $\lim _{n \rightarrow \infty} \mathbb{E}\left[n\left(L(\hat{\theta})-L\left(\theta^{\star}\right)\right)\right]=\frac{1}{2} \operatorname{tr}\left(\nabla^2 L\left(\theta^{\star}\right)^{-1} \operatorname{Cov}\left(\nabla \ell\left((x, y), \theta^{\star}\right)\right)\right)$。
核心结论:
- $\hat \theta - \theta^{\star}$以$1/\sqrt n$速率递减;
- $L(\theta)-L(\theta^{\star})$以$1/n$速率递减;
准备工作
在开始证明之前,给如一个定理和引理。
定理2.2(中心极限定理)
令$X_1, \cdots, X_n$是i.i.d.随机变量,$\hat{X}=\frac{1}{n} \sum_{i=1}^n X_i$,协方差$\Sigma$有界。那么,随着$n\to \infty$,我们有:
- $\hat{X} \stackrel{p}{\rightarrow} \mathbb{E}[X]$。
- $\sqrt{n}(\hat{X}-\mathbb{E}[X]) \stackrel{d}{\rightarrow} \mathcal{N}(0, \Sigma)$。特别地,$\sqrt{n}(\hat{X}-\mathbb{E}[X])=O_P(1)$。
引理2.3
- 如果$Z \sim N(0, \Sigma)$,$A$是确定性矩阵,那么。
- 如果$Z \sim N(0, \Sigma^{-1})$,$Z\in \mathbb R^p$,那么$Z^{\top} \Sigma Z \sim \chi^2(p)$,其中$\chi^2(p)$是自由度为$p$的卡方分布;
只证明第二个结论,第一个结论在概率论中都有介绍。
根据卡方分布定理,如果$X\sim \mathcal N(0, I_p)$,那么$X^{\top} X\sim \chi^2(p)$。因为$Z \sim \mathcal N(0, \Sigma^{-1})$,根据引理1可得$\sqrt{\Sigma} Z \sim \mathcal N(0, \sqrt{\Sigma}\Sigma^{-1}\sqrt{\Sigma}^{\top})=\mathcal (0, I_p)$,因此$Z^{\top }\sqrt{\Sigma}^{\top}\sqrt{\Sigma} Z=Z^{\top} \Sigma Z \sim \chi^2(p)$。
引理2.4
如果$X_n \stackrel{d}{\rightarrow} X$,那么$X_n=O_P(1)$。
证明:
$X_n \stackrel{d}{\rightarrow} X$等价于$\mathbb{P}\left(X_n \leq t\right) \rightarrow \mathbb{P}(X \leq t)$,那么:
根据该引理,定理的2,4可以推出1,3,所以后续只需证明2,4。
证明
因为$\hat \theta$最小化$\hat{L}(\hat{\theta})$,所以$\nabla \hat{L}(\hat{\theta})=0$,将$\nabla \hat{L}$在$\theta^{\star}$附近泰勒展开可得:
变换后可得:
令:
根据中心极限定理可得:
注意到$\nabla L\left(\theta^{\star}\right)=0$,因此:
根据大数定律可得$\nabla^2 \widehat{L}\left(\theta^{\star}\right) \stackrel{p}{\rightarrow} \nabla^2 L\left(\theta^{\star}\right)$。带入公式(1),最终得到:
即结论2。
为了证明结论4,将$L$在$\theta^{\star}$展开可得:
变换后可得:
最后一步是根据$\langle v, A v\rangle=v^{\top} A v=\left|A^{1 / 2} v\right|_2^2$。
令$S=\nabla^2 L\left(\theta^{\star}\right)^{1 / 2} \sqrt{n}\left(\hat{\theta}-\theta^{\star}\right)$,那么根据公式2可得:
带入公式3可得:
这就完成了结论4。
关于结论5,直接计算可得:
小结
这里对证明做个简单小结:
- 将$\hat L(\theta)$在$\theta^{\star}$附近展开,取$\theta=\hat \theta$;
- 将$ L(\theta)$在$\hat \theta$附近展开,取$\theta=\theta ^{\star}$;