Introduction to Deep Learning week 1

这一周开始学习Coursera Advanced Machine Learning 专项课程，这个专项课程一共由7门课，后续应该会学习完，每周会整理一些笔记，下面进入第一门课Introduction to Deep Learning第一周的内容回顾，第一周的内容主要是为神经网络的学习做铺垫。

Linear regression

这部分非常熟悉了，直接给出公式

$向量形式：a(x) =w^Tx\\ 矩阵形式：a(X) = Xw\\ X= \left( \begin{matrix} x_{11}& ... & x_{1d} \\ ... & ... & ... \\ x_{\ell1} &...& x_{\ell d} \end{matrix} \right)$

衡量这个模型需要用到平方误差损失函数(Mean squared error，简称MSE)：

$\begin{aligned} L(w) &= \frac 1 \ell \sum_{i=1}^{\ell} (w^Tx_i-y_i)^2\\ &=\frac 1 \ell ||Xw - y||^2 \end{aligned}$

求$L(w)$最小值对应的$w$，利用导数可得

$w = (X^TX)^{-1}X^Ty$

当数据量很大的时候，这个方法就不可取了，因为计算矩阵的逆需要大量计算，后面会给出更好的方法。

总结

线性模型很简单
可以利用MSE作为误差函数
线性模型有一个解析解，但我们需要更通用的和可扩展的学习方法

Linear model for classification

对于二元分类，可以用如下线性模型

$y\in \{ -1,+1\}\\ a(x) = \text{sign} (w^Tx)$

对于多元分类，可以利用如下方式

$y\in \{ -1,+1\}\\ a(x) = \arg \underset{k \in \{1,...,K\}}{\text{max}}(w_k^Tx)$

准确率为

$\frac 1 \ell \sum_{i=1}^{\ell} [a(x_i) = y_i]$

但是这个函数不可微，所以需要更好的评价函数，这里先看下softmax transform：

$z=(w_1^Tx,...,w_K^Tx)\\ 将其变换为\\ (e^{Z_1},...,e^{Z_K})\\ \sigma(z) = \Big(\frac{e^{Z_1}}{\sum_{k=1}^K e^{Z_k}},...,\frac{e^{Z_K}}{\sum_{k=1}^K e^{Z_k}}\Big)$

我们要利用$\sigma(z)$来估计分类的概率

$p=([y=1],...,[y=K])$

对于这种相似度，我们可以利用交叉熵(cross entropy)来评估，计算公式如下：

$-\sum_{k=1}^K [y=k]\log \frac{e^{Z_k}}{\sum_{j=1}^K e^{Z_j}}= -\log \frac{e^{Z_y}}{\sum_{j=1}^K e^{Z_j}}$

如果考虑全部数据，那么损失函数为：

$\begin{aligned} L(w,b)&=-\sum_{i =1}^\ell\sum_{k=1}^K [y_i=k]\log \frac{e^{w_k^Tx_i}}{\sum_{j=1}^K e^{w_j^Tx_i}} \\&=-\sum_{i =1}^\ell \log \frac{e^{w_{y_i}^Tx_i}}{\sum_{j=1}^K e^{w_j^Tx_i}} \end{aligned}$

总结

线性模型可以很好地完成分类任务
分类问题有很多损失函数
交叉熵是最常用的损失函数

Gradient descent

现在要找到$L(w)$的最小值，可以利用梯度下降法：

$w^t= w^{t-1} -\eta_t \nabla L(w^{t-1})\\ 如果||w^t- w^{t-1}|| < \epsilon则停止$

对于线性回归问题，之前给出了解析解，但是也说过当数据量增加时并不实用，而梯度下降法可以用于解决线性回归问题。

总结

梯度下降法提供了一个通用的学习框架
梯度下降法可以用来解决分类以及回归问题

Overfit

过拟合问题就是得到的模型太复杂，在训练集上表现很好，但在实际应用时表现很差。可以将数据分为训练集以及测试集来解决这个问题，选择在训练集以及测试集上表现都很好的模型，具体有如下两种常用的方法：

总结

参数太多模型容易过拟合
过拟合的模型只记得训练的目标值但没有一般化
可以使用Holdout set或cross-validation来估算模型对新数据的表现

Regularization

Regularization也是解决过拟合的一个方法，一般使用如下的形式：

$L_{\text{reg}}(w) = L(w) +\lambda R(w) \\ L(w)为损失函数，R(w)为正规项，\lambda为参数$

比较常用的正规项有$L_2$正规项：

$L_{\text{reg}}(w) = L(w) +\lambda ||w||^2$

$L_2$正规项会使得很多权重趋近于$0$

$L_1$正规项也很常用：

$L_{\text{reg}}(w) = L(w) +\lambda ||w||$

$L_2$正规项会使得很多权重为$0$

总结

应该限制模型复杂性以防止过拟合
常用方法：惩罚大的权重

Stochastic gradient descent and Mini-batch gradient descent

当数据量太大的时候，Gradient descent也会碰到计算量太大的情形，所以有人提出在计算梯度的时候只计算一小部分数据的梯度，只计算一个数据的梯度时就是Stochastic gradient descent：

$w^t= w^{t-1} -\eta_t \nabla L(w^{t-1};x_i;y_i)\\ 如果||w^t- w^{t-1}|| < \epsilon则停止$

如果取一小部分数据，那么就是Mini-batch gradient descent

$w^t= w^{t-1} -\eta_t \frac 1 m \sum_{j=1}^m\nabla L(w^{t-1};x_i;y_i)\\ 如果||w^t- w^{t-1}|| < \epsilon则停止$

注意$\eta_t$被称为学习率，它非常重要，但是很难选择。

总结

对于大型训练集，Gradient descent是不可行的
Stochastic gradient descent和Mini-batch gradient descent加速了训练过程
学习率很难选择

Gradient descent extensions

这里介绍一些梯度下降算法的延伸

Momentum

$\nu_t = \alpha \nu_{t-1} + \eta _t\dfrac{1}{m} \sum_{j=1}^m \nabla_w L(w_t, x_{j}, y_{j}) \\ w_t = w_{t-1} - \nu_t$

简单来说，每一次更新会记住一部分上次的更新值，可以通过下图理解

AdaGrad

$G_j^t = G_j^{t-1} +g_{tj}^2 \\ w_j^t = w_j^{t-1} - \dfrac{\eta_t}{\sqrt{G_j^t + \varepsilon}} g_{tj}$

RMSprop

$G_j^t = \alpha G_j^{t-1} + (1 - \alpha) g_{tj}^2 \\ w_j^t = w_j^{t-1} - \dfrac{\eta_t}{\sqrt{G_j^t + \varepsilon}} g_{tj}$

还有几个公式比较复杂，暂时略过。

总结

这部分主要是回顾一些算法，其实很多我也不太清楚，感觉后续有需要可以仔细研究下。