Neural Networks for Machine Learning Lecture 10

课程地址：https://www.coursera.org/learn/neural-networks

老师主页：http://www.cs.toronto.edu/~hinton

备注：笔记内容和图片均参考老师课件。

这节课主要介绍了为什么要综合很多个模型以及一些具体的做法，这里回顾几个比较重要的方法。

Mixtures of Experts

核心思路是对不同的数据使用不同的模型（experts)，最后对结果进行加权平均输出，例如高斯混合模型。

损失函数如下

$p_i=\frac{e^{x_i}}{\sum _j e^{x_j}},E=\sum_{i} p_i(t-y_i)^2$

利用Lecture 4中的等式，分别求梯度

$\frac{∂p_i}{∂z_i} =p_i-p^2_i\\ \frac{∂p_j}{∂z_i} =-p_i p_j (i\ne j)$

可得

$\frac{\partial E}{\partial y_i}=2p_i(y_i-t)\\ \begin{aligned} \frac{\partial E}{\partial x_i} &= (p_i-p_i^2) (t-y_i)^2 -\sum_{j\ne i}p_ip_j (t-y_i)^2\\ &=p_i(t-y_i)^2 -p_i \sum_{j}p_j (t-y_i)^2\\ &=p_i\Big( (t-y_i)^2-E\Big) \end{aligned}$

Dropout

首先介绍两种平均模型的方法。

现在考虑只有一个隐藏层的神经网络。

每次训练模型的时候，以$0.5$的概率忽略每个隐藏单元，这样一共可以产生$2^H$个结构，但是注意，这些隐藏层的权重是共用的，在输出的时候，输出几何平均值。这种方法相当于正规化，因为虽然有$2^H$个模型，但实际上只有$H$个参数，而且这种正规化和$L_1,L_2$惩罚项的正规化相比，权重不会太趋近于$0$。如果是多层的神经网络，那么对每一层采取Dropout方法即可。