CS231 第四讲介绍神经网络

课程视频地址：https://study.163.com/courses-search?keyword=CS231

课程主页：http://cs231n.stanford.edu/2017/

这一讲主要介绍反向传播以及神经网络。

反向传播

反向传播是计算梯度的一种方法，这种方法需要利用计算图，计算图的每个节点表示我们执行的每一步计算，例如上一讲介绍的损失函数的计算图如下

第一个节点计算得分${s}$，第二个节点计算折页损失，最后一个节点计算总损失（加上正则项）。

计算图的计算步骤分为前向传播以及反向传播，刚刚描述的步骤为前向传播，现在我们结合下图理解反向传播计算梯度的思路

对于每个节点，假设我们已知输出的梯度$\frac{\partial L}{\partial z}$，我们现在要计算输入的梯度$\frac{\partial L}{\partial x},\frac{\partial L}{\partial y}$，计算的思路很简单，利用链式法则，首先计算“局部梯度”$\frac{\partial z}{\partial x},\frac{\partial z}{\partial y}$，然后利用链式法则可得

$\frac{\partial L}{\partial x}= \frac{\partial L}{\partial z} \frac{\partial z}{\partial x}\\ \frac{\partial L}{\partial y}= \frac{\partial L}{\partial z} \frac{\partial z}{\partial y}$

计算过程如下图所示

如果节点有多个输出$z_j$，那么输入的梯度$\frac{\partial L}{\partial x},\frac{\partial L}{\partial y}$需要累加，具体公式为

$\frac{\partial L}{\partial x}= \sum_j \frac{\partial L}{\partial z_j} \frac{\partial z_j}{\partial x}\\ \frac{\partial L}{\partial y}=\sum_j \frac{\partial L}{\partial z_j} \frac{\partial z_j}{\partial y}$

计算过程如下图所示

来看一个具体例子，我们要求如下函数的梯度

$f(w, x) = \frac{1}{1 +e^{-(w_0x_0 +w_1x_1 + w_2)}}$

计算图如下

这里需要用到如下梯度计算公式

$f(x) =e^x \to \frac {df}{dx} = e^x \\ f(x) =ax \to \frac {df}{dx} = a \\ f(x) =\frac 1 x \to \frac {df}{dx} =-\frac 1 {x^2} \\ f(x) =c+ x \to \frac {df}{dx} =1 \\$

按照之前的方法，可以计算出每个节点的梯度如下所示

这里有个化简技巧，将上述一部分合并为一个sigmoid门

其中sigmoid函数为

$\sigma(x) = \frac 1 {1+e^{-x}}$

从而

$\begin{aligned} \frac {d\sigma(x)} {dx} &= \frac{e^{-x}}{(1+e^{-x})^2} \\ &= \Big(\frac{1 + e^{-x}-1}{1+e^{-x}} \Big) \Big(\frac{1 }{1+e^{-x}} \Big) \\ &= (1-\sigma(x))\sigma(x) \end{aligned}$

合并为sigmoid门后的计算图可以化简如下

反向流中的模式

下面看下不同运算符对于梯度的影响

从上图中不难发现如下规律

加法门：梯度分配器（不改变梯度）
最大值门：梯度路由器（保留最大值的梯度，较小值的梯度为$0$）
乘法门：梯度交换器

向量化操作

下面把之前的结论推广到向量的形式，对于

$\frac{\partial L}{\partial x}= \frac{\partial f}{\partial x}\frac{\partial L}{\partial f}$

$\frac{\partial f}{\partial x}$就要改写为雅克比矩阵。

我们来看一个具体例子

$f(x,W) = ||W.x||^2 = \sum_{i=1}^n (W.x)_i ^2$

给出如下记号

$q=W.x= \left( \begin{matrix} W_{1,1} x_1 + ...+W_{1,n} x_n\\ \vdots \\ W_{n,1} x_1 + ...+W_{n,n} x_n \end{matrix} \right)\\ f(q)=||q||^2 =q_1^2 +...+q_n^2$

计算图如下

$f$关于$q_i$求梯度可得

$\frac {\partial f}{\partial q_i} = 2q_i \\ \nabla_q f = 2q$

$q_k$关于$W_{i,j}$求梯度可得

$\frac {\partial q_k}{\partial W_{ij}} =1_{k=i} x_j$

从而

$\begin{aligned} \frac {\partial f}{\partial W_{i,j}} &=\sum_{k} \frac {\partial f}{\partial q_k} \frac {\partial q_k}{\partial W_{i,j}}\\ &=\sum_k (2q_k) (1_{k=i} x_j)\\ &=2q_i x_j \end{aligned}\\ \nabla_W f = 2q.x^T$

$q_k$关于$x_i$求梯度可得

$\frac {\partial q_k}{\partial x_i} = W_{k,i}\\ \begin{aligned} \frac {\partial f}{\partial x_i} &=\sum_{k} \frac {\partial f}{\partial q_k} \frac {\partial q_k}{\partial x_i} \\ &=\sum_{k} 2q_k W_{k,i} \end{aligned} \\ \nabla_x f=2W^T .q$