这里回顾第二章的第二部分,这部分对上一部分的定理举了一些实例。

课程主页:

课程视频:

课件:

Chapter 2 Asymptotic Analysis

2.1 经验风险最小化的渐近

例子

定理2.4

在定理2.1的假设之外,假设存在参数模型$P(y \mid x ; \theta), \theta \in \Theta$,使得对于某个$\theta_{\star} \in \Theta$,$\left\{y^{(i)} \mid x^{(i)}\right\}_{i=1}^n \sim P\left(y^{(i)} \mid x^{(i)} ; \theta_{\star}\right)$。假设我们的损失函数为$\ell\left(\left(x^{(i)}, y^{(i)}\right), \theta\right)=-\log P\left(y^{(i)} \mid x^{(i)} ; \theta\right)$。像之前一样,令$\hat{\theta}$和$\theta^{\star}$为empirical risk和population risk的minimizer。那么:

证明:

为了证明等式1,只要证明$L(\theta)$在$\theta_{\star}$处取最小值即可:

等号成立当且仅当$\theta=\theta_{\star}$,所以$\theta_{\star} \in \operatorname{argmin}_\theta L(\theta)$。根据一致性(课本中提到了这点,但是没有get到原因),可得$L(\theta)$的极小值点唯一,因此$\theta^{\star}=\theta_{\star}$。

对于等式2,利用$\nabla L\left(\theta^{\star}\right)=0$可得:

对于等式3,利用定义可得:

另一方面,等式3的RHS等价于:

注意到:

因此:

根据定理2.1,我们有:

因此等式4成立。

根据定理2.1的第4部分:

我们可得:

那么定理2.1的第5部分可以化简为:

由此可得结论:

这是一个更为准确的误差估计。

2.2 渐进分析局限性

渐进分析的局限性是完全忽略了高阶项。假设渐进分析的上界为:

那么如下两个上界都可以表述为上式,但实际中两者相差很多,这说明渐进分析不够准确,这也体现了非渐进分析的重要性:

小结

如果以负对数似然为损失函数,那么$\hat \theta $和$\theta^{\star}$的误差上界为$\frac{p}{2 n}+o\left(\frac{1}{n}\right)$。