CS224N Natural Language Processing with Deep Learning Lecture 3

这里回顾CS224N Lecture 3的课程内容，这一讲介绍了神经网络以及分类问题。

假设我们有训练集

$\left\{x_{i}, y_{i}\right\}^{N}_{i=1}$

其中$x_i\in \mathbb R^d$为输入，$y_i$为标签（离散值）。

传统的方法是使用softmax分类器，即

$p(y | x)=\frac{\exp \left(W_{y\cdot } x\right)}{\sum_{c=1}^{C} \exp \left(W_{c\cdot } x\right)}$

其中

$W_{y \cdot }x=\sum_{i=1}^{d} W_{y i} x_{i}=f_{y}$

度量上述概率的方式是使用交叉熵：

$H(p, q)=-\sum_{c=1}^{C} p(c) \log q(c)$

注意$y_i$为one hot的形式，即

$p=[0, \ldots, 0,1,0, \ldots 0]$

所以总体的损失函数为

$J(\theta)=\frac{1}{N} \sum_{i=1}^{N}-\log \left(\frac{e^{f_{y_{i}}}}{\sum_{c=1}^{C} e^{f_{c}}}\right)$

利用梯度下降的方法即可计算权重$W$。

上述方法计算出的分类边界是线性的，所以无法处理很复杂的问题，所以实际中一般使用神经网络进行建模，这也是后续的重点。

神经网络的结构如下：

以下图为例介绍具体计算步骤：

$a_{i}=f\left(W_{i1} x_{1}+W_{i2} x_{2}+W_{i3} x_{3}+b_{i}\right)$

矩阵形式为

$\begin{aligned} &z=W x+b\\ &a=f(z) \end{aligned}$

其中

$f\left(\left[z_{1}, z_{2}, z_{3}\right]\right)=\left[f\left(z_{1}\right), f\left(z_{2}\right), f\left(z_{3}\right)\right]$

$f$被称为激活函数，注意$f$一定是非线性函数，否则多层网络的效果等于单层。

考虑NER问题，即在文本中找到并分类命名实体：

NER问题可以化成分类问题，即对每个单词$x$，输出其分类，但是如果直接使用该方法，那么会忽略上下文信息，所以考虑该单词的上下文，以窗口长度为$2$为例：

所以输入为

$x_{\text {window}}=x \in \mathbb R^{5 d}$

下面给出一个处理该问题的具体的网络架构

有了网络结构，接下来指定损失函数就可以进行训练，这里的损失函数为

$J=\max \left(0,1-s+s_{c}\right)$

训练的方法为梯度下降法

$\theta^{\text{new}}=\theta^{\text{old}}-\alpha \nabla_{\theta} J(\theta)$