CS231 第十讲循环神经网络

课程视频地址：https://study.163.com/courses-search?keyword=CS231

课程主页：http://cs231n.stanford.edu/2017/

这一讲介绍了循环神经网络(RNN)。

RNN基本概念

RNN用于处理序列数据，根据输入输出的数量，RNN有如下几种形式

一般的RNN架构如下

每一步中，我们使用$t$时刻的输入$x_t$和$t-1$时刻的状态$h_{t-1}$计算$t$时刻的状态$h_t$，然后利用$h_t$计算输出$y_t$，所以$h_t$的公式如下

$h_t = f_W(h_{t-1}, x_t)$

常见的形式如下

$\begin{aligned} h_t &=\tanh(W_{hh}h_t +W_{xh}x_t)\\ y_t &= W_{hy}h_t \end{aligned}$

实际中，一般将第二张图片中的架构展开，这样更便于理解。

多对多

多对一

一对多

例子

来看个生成字母的例子，假设字母为[h,e,l,o]，可以利用如下网络生成字母

还有一个例子是Image Captioning，即给图像打标签，处理方法是现将图像喂给CNN，然后将全连接层的输出结果喂给RNN，具体形式如下

LSTM

首先对一般的RNN形式作改写

$\begin{aligned} h_t &=\tanh(W_{hh}h_{t-1}+ W_{xh}x_t)\\ &=\tanh \Big( \left(\begin{matrix}W_{hh}& W_{xh}\end{matrix}\right) \left(\begin{matrix}h_{t-1}\\ x_t\end{matrix}\right) \Big)\\ &= \tanh \Big( W \left(\begin{matrix}h_{t-1}\\ x_t\end{matrix}\right) \Big) \end{aligned}$

反向传播的梯度流如下