Chapter 2 Asymptotic Analysis笔记 Part 2 (Stanford Machine Learning Theory)
这里回顾第二章的第二部分,这部分对上一部分的定理举了一些实例。
课程主页:
课程视频:
课件:
Chapter 2 Asymptotic Analysis
2.1 经验风险最小化的渐近
例子
定理2.4
在定理2.1的假设之外,假设存在参数模型$P(y \mid x ; \theta), \theta \in \Theta$,使得对于某个$\theta_{\star} \in \Theta$,$\left\{y^{(i)} \mid x^{(i)}\right\}_{i=1}^n \sim P\left(y^{(i)} \mid x^{(i)} ; \theta_{\star}\right)$。假设我们的损失函数为$\ell\left(\left(x^{(i)}, y^{(i)}\right), \theta\right)=-\log P\left(y^{(i)} \mid x^{(i)} ; \theta\right)$。像之前一样,令$\hat{\theta}$和$\theta^{\star}$为empirical risk和population risk的minimizer。那么:
证明:
为了证明等式1,只要证明$L(\theta)$在$\theta_{\star}$处取最小值即可:
等号成立当且仅当$\theta=\theta_{\star}$,所以$\theta_{\star} \in \operatorname{argmin}_\theta L(\theta)$。根据一致性(课本中提到了这点,但是没有get到原因),可得$L(\theta)$的极小值点唯一,因此$\theta^{\star}=\theta_{\star}$。
对于等式2,利用$\nabla L\left(\theta^{\star}\right)=0$可得:
对于等式3,利用定义可得:
另一方面,等式3的RHS等价于:
注意到:
因此:
根据定理2.1,我们有:
因此等式4成立。
根据定理2.1的第4部分:
我们可得:
那么定理2.1的第5部分可以化简为:
由此可得结论:
这是一个更为准确的误差估计。
2.2 渐进分析局限性
渐进分析的局限性是完全忽略了高阶项。假设渐进分析的上界为:
那么如下两个上界都可以表述为上式,但实际中两者相差很多,这说明渐进分析不够准确,这也体现了非渐进分析的重要性:
小结
如果以负对数似然为损失函数,那么$\hat \theta $和$\theta^{\star}$的误差上界为$\frac{p}{2 n}+o\left(\frac{1}{n}\right)$。