CS231 作业1

课程视频地址：https://study.163.com/courses-search?keyword=CS231

课程主页：http://cs231n.stanford.edu/2017/

参考资料：https://github.com/zhyh2010/cs231n/tree/master/assignment1

我的代码地址：https://github.com/Doraemonzzz/CS231n

这一部分回顾作业1的重点。

1.k-最近邻分类器

这题的难点是向量化k-nn的计算过程，将问题描述如下，假设

$X = \left[ \begin{matrix} — (x^{(1)})^T— \\ — (x^{(2)})^T— \\ \vdots\\ — (x^{(m)})^T— \end{matrix} \right] \in \mathbb R^{m \times d}, Y = \left[ \begin{matrix} — (y^{(1)})^T— \\ — (y^{(2)})^T— \\ \vdots\\ — (y^{(n)})^T— \end{matrix} \right] \in \mathbb R^{n \times d}$

其中$x^{(i)} ,y^{(i)} \in \mathbb R^d$，现在的问题是如何高效计算矩阵$D \in \mathbb R^{m\times n}$，其中

$D_{i,j} = ||x^{(i)} -y^{(j)} ||^2$

首先对$D_{i,j}$进行处理

$\begin{aligned} D_{i,j} &= ||x^{(i)} -y^{(j)} ||^2 \\ &= (x^{(i)} -y^{(j)})^T (x^{(i)} -y^{(j)})\\ &=(x^{(i)})^T x^{(i)} -2(x^{(i)})^Ty^{(j)} +(y^{(j)})^T y^{(j)} \end{aligned}$

那么

$\begin{aligned} D &= \left[ \begin{matrix} D_{1,1} & ... & D_{1,n} \\ ... & ... & ... \\ D_{m,1} & ... & D_{m,n} \end{matrix} \right] \\ &= \left[ \begin{matrix} (x^{(1)})^T x^{(1)} -2(x^{(1)})^Ty^{(1)} +(y^{(1)})^T y^{(1)} & ... & (x^{(1)})^T x^{(1)} -2(x^{(1)})^Ty^{(n)} +(y^{(n)})^T y^{(n)}\\ ... & ... & ... \\ (x^{(m)})^T x^{(m)} -2(x^{(m)})^Ty^{(1)} +(y^{(1)})^T y^{(1)} & ... & (x^{(m)})^T x^{(m)} -2(x^{(m)})^Ty^{(n)} +(y^{(n)})^T y^{(n)} \end{matrix} \right] \\ &= \left[ \begin{matrix} (x^{(1)})^T x^{(1)} & ... & (x^{(1)})^T x^{(1)} \\ ... & ... & ... \\ (x^{(m)})^T x^{(m)} & ... & (x^{(m)})^T x^{(m)} \end{matrix} \right] +\left[ \begin{matrix} (y^{(1)})^T y^{(1)} & ... & (y^{(n)})^T y^{(n)} \\ ... & ... & ... \\ (y^{(1)})^T y^{(1)} & ... & (y^{(n)})^T y^{(n)} \end{matrix} \right]- 2\left[ \begin{matrix} (x^{(1)})^T y^{(1)} & ... & (x^{(1)})^T y^{(n)} \\ ... & ... & ... \\ (x^{(m)})^T y^{(1)} & ... & (x^{(m)})^T y^{(n)} \end{matrix} \right]\\ &=\left[ \begin{matrix} (x^{(1)})^T x^{(1)} \\ ... \\ (x^{(m)})^T x^{(m)} \end{matrix} \right]\underbrace{\left[ \begin{matrix} 1&...&1 \end{matrix} \right]}_{1\times n矩阵} +\underbrace{\left[ \begin{matrix} 1\\ \vdots \\ 1 \end{matrix} \right]}_{m\times 1矩阵} \left[ \begin{matrix} (y^{(1)})^T y^{(1)} & \ldots & (y^{(n)})^T y^{(n)} \end{matrix} \right] -2XY^T \end{aligned}$

利用numpy的广播机制上式可以简写如下：

test = np.sum(X ** 2, axis=1).reshape(-1, 1)
train = np.sum(self.X_train ** 2, axis=1).reshape(1, -1)
dists = np.sqrt(test + train.T - 2 * X.dot(self.X_train.T))

2.训练一个SVM

这一部分介绍如何求SVM的梯度，首先有如下假设

$X = \left[ \begin{matrix} — (x^{(1)})^T— \\ — (x^{(2)})^T— \\ \vdots\\ — (x^{(m)})^T— \end{matrix} \right] \in \mathbb R^{m \times d} ,\vec y = \left[ \begin{matrix} y^{(1)} \\ y^{(2)} \\ \vdots\\ y^{(m)} \end{matrix} \right]\in \mathbb R^{m} , W\in \mathbb R^{d \times c}$

其中$x^{(i)} \in \mathbb R^d,y^{(i)}\in \mathbb R$，我们的计算公式如下：

$S= XW\in \mathbb R^{m \times c}, s^{(i)} = W^T x^{(i)} \in \mathbb R^c$

对于样本$x^{(i)}$，损失函数如下

$L_i = \sum_{j\neq y^{(i)}} \max(0, s_j^{(i)} -s_{y^{(i)}}^{(i)}+1)$

计算$s^{(i)}$的第$j$项$s_j ^{(i)}$可得

$s^{(i)}_j =\sum_{k=1}^d W_{kj} x^{(i)}_k$

所以

$\frac{\partial s^{(i)}_j } {\partial W_{st}} = x^{(i)}_s 1\{t=j\}$

所以$\nabla _{W} s^{(i)}_j$为除了第$j$列为$x^{(i)}$，其余元素全为$0$的矩阵。现在关于$L_i$求梯度可得

$\nabla_W L_i = \sum_{j\neq y^{(i)}} 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} (\nabla_W s_j^{(i)} -\nabla_W s^{(i)}_{y^{(i)}})$

因此循环形式的梯度更新代码如下：

dW = np.zeros(W.shape) # initialize the gradient as zero

# compute the loss and the gradient
num_classes = W.shape[1]
num_train = X.shape[0]
#print(X.shape, dW.shape)
loss = 0.0
for i in xrange(num_train):
    scores = X[i].dot(W)
    correct_class_score = scores[y[i]]
    for j in xrange(num_classes):
      if j == y[i]:
        continue
      margin = scores[j] - correct_class_score + 1 # note delta = 1
      if margin > 0:
        loss += margin
        dW[:, j] += X[i]
        dW[:, y[i]] -= X[i]

接下来考虑如何将上述过程向量化。注意到$j=y^{(i)}$时，

$\nabla_W s_j^{(i)} -\nabla_W s^{(i)}_{y^{(i)}} = 0$

所以梯度的式子可以改写为

$\begin{aligned} \nabla_W L_i &= \sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} (\nabla_W s_j^{(i)} -\nabla_W s^{(i)}_{y^{(i)}})\\ &=\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s_j^{(i)} -\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s^{(i)}_{y^{(i)}} \end{aligned}$

总梯度为

$\sum_{i=1}^ m \nabla_W L_i =\sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s_j^{(i)} -\sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s_{y^{(i)}}^{(i)}$

上述形式提醒了我们该如何向量化，首先计算得分矩阵$S’\in \mathbb R^{m\times c}$，其中

$S'_{i,j} = s_j^{(i)} -s_{y^{(i)}}^{(i)}+1$

对应代码如下：

#样本数量
n = X.shape[0]
#记录得分
score = X.dot(W)
#正确的分数
score_correct = score[np.arange(n), y].reshape(-1, 1)
#计算分数
temp = score - score_correct + 1

然后计算$S’>0$的布尔矩阵，对应代码如下（这部分写的不够简洁）：

temp[temp < 0] = 0
temp[temp > 0] = 1

在考虑下式之前

$\sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s_j^{(i)}$

先考虑其每个分量，即

$\begin{aligned} \sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_{W_{s,t}} s_j^{(i)} &=\sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} x^{(i)}_s 1\{t=j\} \\ &=\sum_{i=1}^ m 1 \{s_t^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \}x^{(i)}_s \\ &=\sum_{i=1}^ m S'_{i,t} X_{i, s} \\ & =[X^T S']_{i,j} \end{aligned}$

所以

$\sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s_j^{(i)}=X^T S' \in \mathbb R^{d\times c}$

注意到

$\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} = S'第i行的元素之和\triangleq S'(i)$

所以

$\sum_{i=1}^ m\sum_{j=1}^c 1 \{s_j^{(i)} -s_{y^{(i)}}^{(i)}+1 >0 \} \nabla_W s^{(i)}_{y^{(i)}} =\sum_{i=1}^ m S'(i)\nabla_W s_{y^{(i)}}^{(i)}$

因为$\nabla_W s_{y^{(i)}}^{(i)}$表示除了第$y^{(i)}$列为$x^{(i)}$，其余元素全为$0$的矩阵，实际操作时要减去上述梯度，所以$S’$应该作出如下更新

$S'_{i, y^{(i)}} =S'_{i, y^{(i)}} - S'(i)$

对应代码如下

num = np.sum(temp, axis=1)
temp[np.arange(n), y] -= num

这步结束后重新利用$X^T S’$计算梯度即可，代码为

dW = X.T.dot(temp)

3.实现Softmax分类器

这部分推导Softmax分类器下的梯度，首先依旧有

其中$x^{(i)} \in \mathbb R^d,y^{(i)}\in \mathbb R$，我们的计算公式如下：

$S= XW\in \mathbb R^{m \times c}, s^{(i)} = W^T x^{(i)} \in \mathbb R^c$

在Softmax分类器，我们有

$P(y= k|x= x^{(i)}) =\frac{e^{s^{(i)}_k}}{\sum_j e^{s^{(i)}_j}}$

对于样本$x^{(i)}$，损失函数如下

$\begin{aligned} L_i &= -\log \Big(\frac{e^{s^{(i)}_{y^{(i)}}}}{\sum_j e^{s^{(i)}_j}}\Big) \\ &=-s^{(i)}_{y^{(i)}} +\log\Big (\sum_j e^{s^{(i)}_j}\Big) \end{aligned}$

计算$s^{(i)}$的第$j$项$s_j ^{(i)}$可得

$s^{(i)}_j =\sum_{k=1}^d W_{kj} x^{(i)}_k$

所以

$\frac{\partial s^{(i)}_j } {\partial W_{st}} = x^{(i)}_s 1\{t=j\} \\ \begin{aligned} \frac{\partial L_i } {\partial W_{st}} &= - \frac{\partial s^{(i)}_{y^{(i)}} } {\partial W_{st}} + \frac{\sum_{j} e^{s^{(i)}_j}\frac{\partial s^{(i)}_j } {\partial W_{st}} }{\sum_j e^{s^{(i)}_j}} \\ &=- x^{(i)}_s 1\{t=y^{(i)}\} + \frac{\sum_{j}e^{s^{(i)}_j}x^{(i)}_s 1\{t=j\} }{\sum_j e^{s^{(i)}_j}} \\ &=- x^{(i)}_s 1\{t=y^{(i)}\} +x^{(i)}_s \frac{e^{s^{(i)}_t} }{\sum_j e^{s^{(i)}_j}} \end{aligned}$

所以$\nabla_W L_i$可以拆成两个矩阵，记为$A_i,B_i$，即

$\begin{eqnarray*} \nabla_W L_i =A_i+B_i \tag 1 \end{eqnarray*}$

其中矩阵$A_i$第$s,t$个元素为

$- x^{(i)}_s 1\{t=y^{(i)}\}$

即矩阵$A_i $第$y^{(i)}$列为$-x^{(i)}$，其余元素全为$0$，因此循环形式的梯度更新代码如下：

N, D = X.shape
for i in range(N):
    x = X[i]
    #计算梯度第一项
    dW[:, y[i]] -= x

矩阵$B_i$第$s,t $个元素为$x^{(i)}_s \frac{e^{s^{(i)}_t} }{\sum_j e^{s^{(i)}_j}}$，所以

$B_i = (x^{(i)}) \left[ \begin{matrix} \frac{e^{s^{(i)}_1} }{\sum_j e^{s^{(i)}_j}} \\ \vdots \\ \frac{e^{s^{(i)}_c} }{\sum_j e^{s^{(i)}_j}} \end{matrix} \right]^T \in \mathbb R^{d\times c}$

对应代码如下：

score = x.dot(W)
#计算概率
p = np.exp(score) / np.sum(np.exp(score))
#计算梯度第二项
dW += x.reshape(-1, 1).dot(p.reshape(1, -1))

接下来考虑如何将上述过程向量化，首先对损失函数向量化，总损失为

$\sum_{i=1}^m L_i = -\sum_{i=1}^m \log \Big(\frac{e^{s^{(i)}_{y^{(i)}}}}{\sum_j e^{s^{(i)}_j}}\Big)$

考虑$\frac{e^{s^{(i)}_{y^{(i)}}}}{\sum_j e^{s^{(i)}_j}}$，首先考虑分子构成的矩阵

$\left[ \begin{matrix} e^{s^{(1)}_{y^{(1)}}}&...& e^{s^{(m)}_{y^{(m)}}} \end{matrix} \right]$

利用$\vec y$可以很方便计算上式，对应代码如下

N, D = X.shape
S = X.dot(W)
p1 = np.exp(S[np.arange(N), y])

接着考虑分母构成的矩阵$\sum_j e^{s^{(i)}_j}$，对应代码如下

p2 = np.sum(np.exp(S), axis=1)

所以损失函数可以用如下代码求出

p = p1 / p2
loss = np.sum(-np.log(p))

接着讨论如何向量化求梯度，首先由公式$(1)$可得

$\nabla_W L =\sum_{i=1}^ m \nabla_W L_i =\sum_{i=1}^ m A_i +\sum_{i=1}^ m B_i$

先考虑$\sum_{i=1}^ m B_i$，首先构造矩阵$P \in \mathbb R^{m\times c}$，使得

$P_{i,j} = \frac{e^{s^{(i)}_j} }{\sum_j e^{s^{(i)}_j}}$

对应代码如下

p3 = np.exp(S) / p2.reshape(-1, 1)

因为

$B_i = (x^{(i)}) \left[ \begin{matrix} \frac{e^{s^{(i)}_1} }{\sum_j e^{s^{(i)}_j}} \\ \vdots \\ \frac{e^{s^{(i)}_c} }{\sum_j e^{s^{(i)}_j}} \end{matrix} \right]^T \in \mathbb R^{d\times c}$

所以

$\sum_{i=1}^ m B_i=X^T P$

接下来考虑$\sum_{i=1}^ m A_i$，注意矩阵$A_i $第$y^{(i)}$列为$-x^{(i)}$，其余元素全为$0$，而$\nabla_W L$为两项之和，所以可以对$P_{i,j} $作如下更新

$P_{i,y^{(i)}} =P_{i,y^{(i)}} - 1$

对应代码如下

p3[np.arange(N), y] -= 1

最后重新计算$X^TP$得到

$\nabla_W L = X^T P$

对应代码如下

dW = X.T.dot(p3)

4.实现2层神经网络

首先对第3题的softmax稍作修改，然后计算$b$的梯度

其中$x^{(i)} \in \mathbb R^d,y^{(i)}\in \mathbb R$，我们的计算公式如下：

$S= XW +b\in \mathbb R^{m \times c}, s^{(i)} = W^T x^{(i)}+b \in \mathbb R^c \\ s^{(i)}_j =\sum_{k=1}^d W_{kj} x^{(i)}_k+b_j$

注意上述第一个加号要理解为numpy中加号（利用广播机制自动匹配维度），$s^{(i)}$对应的损失为

$\begin{aligned} L_i &= -\log \Big(\frac{e^{s^{(i)}_{y^{(i)}}}}{\sum_j e^{s^{(i)}_j}}\Big) \\ &=-s^{(i)}_{y^{(i)}} +\log\Big (\sum_j e^{s^{(i)}_j}\Big) \end{aligned}$

注意到

$\frac{\partial s^{(i)}_j}{\partial b_k} = 1\{j=k\} \\ \nabla _b s_j^{(i)} = \left[ \begin{matrix} 1\{j=1\}\\ 1\{j=2\} \\ \vdots \\ 1\{j=c\} \end{matrix} \right] \triangleq Z_j^{(i)} \in \mathbb R^c$

所以

$\begin{aligned} \nabla_b L_i & = -1\times \nabla_b s^{(i)}_{y^{(i)}} + \frac{\sum_{j}e^{s^{(i)}_j}\nabla_b {s^{(i)}_j} }{\sum_j e^{s^{(i)}_j}} \\ &=-Z_{y^{(i)}}^{(i)} +\frac{\sum_{j}e^{s^{(i)}_j}Z_{j}^{(i)} }{\sum_j e^{s^{(i)}_j}} \end{aligned}\\$

由$Z_j^{(i)}$的定义可知

$\sum_{j}e^{s^{(i)}_j}Z_{j}^{(i)} = \left[ \begin{matrix} e^{s^{(i)}_1}\\ e^{s^{(i)}_2} \\ \vdots \\ e^{s^{(i)}_c} \end{matrix} \right]$

因此

$\begin{aligned} \nabla_b L & = \sum_{i=1}^ m\nabla_b L_i \\ &= \sum_{i=1}^ m \Big( -Z_{y^{(i)}}^{(i)} + \frac{\sum_{j}e^{s^{(i)}_j}Z_{j}^{(i)} }{\sum_j e^{s^{(i)}_j}} \Big) \\ &=\left[ \begin{matrix} \frac{\sum_{i=1}^ m e^{s^{(i)}_1}}{\sum_j e^{s^{(i)}_j}}\\ \frac{\sum_{i=1}^ m e^{s^{(i)}_2}}{\sum_j e^{s^{(i)}_j}} \\ \vdots \\ \frac{\sum_{i=1}^ me^{s^{(i)}_c}}{\sum_j e^{s^{(i)}_j}} \end{matrix} \right] - \sum_{i=1}^ m Z_{y^{(i)}} \end{aligned}$

接着构造矩阵$P \in \mathbb R^{m\times c}$，使得

$P_{ij} = \frac{e^{s^{(i)}_j} }{\sum_j e^{s^{(i)}_j}}$

接下来对矩阵$P$作如下处理

$P_{i,y^{(i)}} = P_{i,y^{(i)}} -1$

那么$\nabla_b L$为矩阵$P$按行求和得到的向量，$\nabla _W L$的计算方法不变，对应代码如下：

S1 = X.dot(W1) + b1
#RELU
X1 = np.copy(S1)
X1[X1 < 0] = 0
scores = X1.dot(W2) + b2

N, D = scores.shape
#计算概率
p1 = np.exp(scores[np.arange(N), y])
p2 = np.sum(np.exp(scores), axis=1)
p = p1 / p2
#计算损失
loss = np.sum(-np.log(p)) / N + reg * (np.sum(W1 * W1) + np.sum(W2 * W2))

#计算第二层梯度
p3 = np.exp(scores) / p2.reshape(-1, 1)
p3[np.arange(N), y] -= 1
dW2 = X1.T.dot(p3) / N + 2 * reg * W2
db2 = np.sum(p3, axis=0) / N
grads["W2"] = dW2
grads["b2"] = db2

由于要进行反向传播，我们还需要计算$\nabla_X L$，先计算$\frac{\partial s^{(i)}_j}{\partial X_{st}}$，注意到我们有

$X_{st} = x^{(s)}_j$

所以

$\begin{aligned} \frac{\partial s^{(i)}_j}{\partial X_{st}} &=\frac{\partial (\sum_{k=1}^d W_{kj} x^{(i)}_k)}{\partial X_{st}} \\ &=\frac{\partial (\sum_{k=1}^d W_{kj} X_{ik})}{\partial X_{st}} \\ &=W_{tj} 1\{i=s \}\\ \frac{\partial L_i } {\partial X_{st}} &= - \frac{\partial s^{(i)}_{y^{(i)}} } {\partial X_{st}} + \frac{\sum_{j} e^{s^{(i)}_j}\frac{\partial s^{(i)}_j } {\partial X_{st}} }{\sum_j e^{s^{(i)}_j}} \\ &=-W_{ty^{(i)}} 1\{i=s \} + \frac{\sum_{j}e^{s^{(i)}_j}W_{tj} 1\{i=s \} }{\sum_j e^{s^{(i)}_j}} \\ &=1\{i=s \} \Big ( -W_{ty^{(i)}} + \frac{\sum_{j}e^{s^{(i)}_j}W_{tj} }{\sum_j e^{s^{(i)}_j}} \Big) \end{aligned}$

因此

$\begin{aligned} \frac{\partial L}{\partial X_{st}}&=\sum_{i=1}^ m \frac{\partial L_i}{\partial X_{st}} \\ &=\sum_{i=1}^ m 1\{i=s \} \Big ( -W_{ty^{(i)}} + \frac{\sum_{j}e^{s^{(i)}_j}W_{tj} }{\sum_j e^{s^{(i)}_j}} \Big) \\ &=-W_{ty^{(s)}} + \frac{\sum_{j}e^{s^{(s)}_j}W_{tj} }{\sum_j e^{s^{(s)}_j}} \\ &=\sum_{j}P_{sj}W_{tj} \end{aligned}$

所以

$\nabla_X L = P W^T$

对应代码为

#计算
dX = p3.dot(W2.T)

接着求RELU函数的导数，对应代码为

#RELU
dX[X1 <= 0] = 0

注意，以下部分请忽略之前的记号。

为了后续讨论方便，这里假设最后的输出为$f$，后一层传给前一层的导数矩阵为$F\in \mathbb R^{m\times c}$，前一层为$X\in \mathbb R^{m\times d}$，对应权重和偏置项为$W\in \mathbb R^{d\times c},b\in \mathbb R^{c}$，记$S$的第$i$行为$s^{(i)}$，$X$的第$i$行为$x^{(i)}$，那么

$S = XW+b \in \mathbb R^{m\times c} \\ s^{(i)} = W^T x^{(i)} +b, \frac{\partial s^{(i)}_j } {\partial W_{st}} = x^{(i)}_s 1\{t=j\},\frac{\partial s^{(i)}_j}{\partial b_k} = 1\{j=k\}\\ \nabla_S f = F\in \mathbb R^{m\times c}, \nabla_W S =X^T\in \mathbb R^{d\times m} ,\nabla _b s_j^{(i)} = \left[ \begin{matrix} 1\{j=1\}\\ 1\{j=2\} \\ \vdots \\ 1\{j=c\} \end{matrix} \right] \in \mathbb R^c$

注意到

$\begin{aligned} \frac{\partial f}{\partial W_{ij}} &= \sum_{s=1}^m \sum_{t=1}^c \frac{\partial f}{\partial S_{st}} \frac{\partial S_{st}}{\partial W_{ij}} \\ &= \sum_{s=1}^m \sum_{t=1}^c F_{st} x^{(s)}_i 1\{t=j\} \\ &=\sum_{s=1}^m x^{(s)}_iF_{sj} \\ &= \sum_{s=1}^m X_{si}F_{sj} \\ &= [X^TF]_{st} \\ \frac{\partial f}{\partial b_i} &= \sum_{s=1}^m \sum_{t=1}^c \frac{\partial f}{\partial S_{st}} \frac{\partial S_{st}}{\partial b_i} \\ &= \sum_{s=1}^m \sum_{t=1}^c F_{st} 1\{t=i\} \\ &=\sum_{s=1}^m F_{si} \\ \end{aligned}$

因此

$\nabla_W f =\nabla_W S \times \nabla_S f =X^T F\in \mathbb R^{d\times c} \\ \nabla_b f 为F按行求和后的矩阵$

对应代码为

#计算第一层的梯度
N1, D1 = S1.shape
dW1 = X.T.dot(dX)
db1 = np.sum(dX, axis=0)