课程地址:https://www.coursera.org/learn/neural-networks

老师主页:http://www.cs.toronto.edu/~hinton

备注:笔记内容和图片均参考老师课件。

这节课主要介绍了为什么要综合很多个模型以及一些具体的做法,这里回顾几个比较重要的方法。

Mixtures of Experts

核心思路是对不同的数据使用不同的模型(experts),最后对结果进行加权平均输出,例如高斯混合模型。

损失函数如下

利用Lecture 4中的等式,分别求梯度

可得

Dropout

首先介绍两种平均模型的方法。

现在考虑只有一个隐藏层的神经网络。

每次训练模型的时候,以$0.5$的概率忽略每个隐藏单元,这样一共可以产生$2^H$个结构,但是注意,这些隐藏层的权重是共用的,在输出的时候,输出几何平均值。这种方法相当于正规化,因为虽然有$2^H$个模型,但实际上只有$H$个参数,而且这种正规化和$L_1,L_2$惩罚项的正规化相比,权重不会太趋近于$0$。如果是多层的神经网络,那么对每一层采取Dropout方法即可。