CS231 第五讲 卷积神经网络
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
这一讲主要介绍卷积神经网络。
第一部分是介绍历史,这里略过,直接进入正题。
卷积神经网络卷积神经网络主要用于计算机视觉领域,处理对象为图片,首先来比较卷积神经网络和之前介绍的神经网络的区别。
之前介绍的神经网络每层被称为全连接层,形式如下
而卷积神经网络有卷积层,形式如下
那么为什么要使用卷积层而不是全连接层呢?主要如下两个原因。第一个原因是全连接层的权重太多,例如$200\times 200\times 3$的图像将有$120,000$个权重,这很容易导致过拟合(参数太多)以及计算成本太大;第二个原因是图像中有很多模式重复出现,例如边缘等等,使用滤波器可以复用这些共同特征。
下面详细介绍卷积层。
卷积层下面假设图像的维度为$W_1 \times H_1 \times D_1$,一般来说,滤波器前两个维度相等,而第三个维度必须等于图像的第三个维度,从而这里假设滤波器的维度为$F\times ...
Hexo博客deploy报错
今天hexo写博客的时候又遇到一个坑,这里简单记录下。
出现的问题是hexo d之后有如下报错:
Template render error: (unknown path) [Line 147, Column 121]
expected variable end
网上查了下,发现原因是因为出现了如下形式的连续两个大括号:
{{ ,}}
发现问题后,我让大括号之间带个空格,即使用:
{ { ,} }
替换上述符号,果然解决了。
高等概率论第十五讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了强大数定律,特征函数以及中心极限定理。
2.(弱)大数定律(LLN)定理7.1.1
设\lbrace X_n\rbrace \ iid,那么存在\lbrace a_n\rbrace 使得 \frac{S_n}{n}-a_n \overset{\mathbb P} \to 0 \Leftrightarrow
\lim_{x\to \infty} x \mathbb P (|X_1|>x)= 0证明:仅证明$\Leftarrow$:$\forall n \ge 1, 1\le k \le n$,定义
X_{nk}\triangleq X_k 1_{\lbrace |X_k|\le n\rbrace } ,\hat S_n =\sum_{k=1}^n X_{nk}不难看出$y_k=X_{nk}$独立同分布,则
\begin{aligned}
\frac 1{n^2} \text{Var}(\hat S_n)
&=\frac 1 {n^2} \sum_{k=1}^n \text{Var}(X_{nk})\\
&\l ...
高等概率论第十四讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲继续上次的内容并介绍弱大数定律。
定理 6.4.2
设\lbrace F_n,n\ge 1\rbrace 是\mathbb R^d上一列概率分布函数,则它一定有淡收敛子列证明:利用对角线方法。
记$Q= \lbrace r_1,r_2,…,r_n,…\rbrace $为全体有理数,因为$\lbrace F_n (r_1)\rbrace $有界,因此有收敛子列$\lbrace F_{1n} (r_1)\rbrace $,记
F_{1n} (r_1)\to F(r_1),n\to \infty因为$\lbrace F_{1n} (r_2)\rbrace $也有界,因此有收敛子列$\lbrace F_{2n} (r_2)\rbrace $,记
F_{2n} (r_2) \to F(r_2), n\to \infty注意$F_{1n}$在$r_1$收敛,$F_{2n}$在$r_1,r_2$收敛,如此下去,得到阵列
\left(
\begin{matrix}
F_{11} & F_{12}& ... & F_{1n}& ...
高等概率论第十三讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了矩收敛,$L^r$收敛,依分布收敛以及概率测度的弱收敛。
3.矩收敛与$L^r$收敛1.$L^r$收敛$L^r$收敛的定义定义:
设(\Omega, \mathcal F, P)是一概率空间,定义L^r=L^r(\Omega, \mathcal F, P) =\{r.v\ \ X:\mathbb E|X|^r< \infty\}。\\若\{X;X_n ,n\ge 1\}\subset L^r且\mathbb E|x _n-x|^r \to 0,则称X_n \ r阶矩收敛于X,记为:\\
X_n \overset{r} \to X \ \ \ \ \ (n\to \infty)推论(1)
X_n \overset {r}\to X \Rightarrow X_n \overset{P}\to X \ \ \ \ \ (n\to \infty)证:$\forall \epsilon >0$
\mathbb P(|X_n -X| \ge \epsilon) \le \epsilon^{-r} \mathbb E ...
CS231 第四讲 介绍神经网络
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
这一讲主要介绍反向传播以及神经网络。
反向传播反向传播是计算梯度的一种方法,这种方法需要利用计算图,计算图的每个节点表示我们执行的每一步计算,例如上一讲介绍的损失函数的计算图如下
第一个节点计算得分${s}$,第二个节点计算折页损失,最后一个节点计算总损失(加上正则项)。
计算图的计算步骤分为前向传播以及反向传播,刚刚描述的步骤为前向传播,现在我们结合下图理解反向传播计算梯度的思路
对于每个节点,假设我们已知输出的梯度$\frac{\partial L}{\partial z}$,我们现在要计算输入的梯度$\frac{\partial L}{\partial x},\frac{\partial L}{\partial y}$,计算的思路很简单,利用链式法则,首先计算“局部梯度”$\frac{\partial z}{\partial x},\frac{\partial z}{\partial ...
台大实分析单元 20 Riemann 与 Lebesgue 积分
这一部分介绍了Riemann积分和Lebesgue积分的关系。
Appendix B Riemann and Lebesgue integral这一部分讨论黎曼积分和勒贝格积分的关系,首先需要定义任意度量空间上的黎曼积分。
令$f$是定义在度量空间$(M,\rho)$上的有界函数。定义
\underline f (x)=\lim_{\delta\to 0^+} \inf_{\rho(y,x)\alpha\}是开集证明:显然有
\overline f = -\underline {(-f)}所以只要证明$\{\underline f >\alpha\}$是开集即可。
取$x_0 \in \{\underline f >\alpha\}$,那么由定义可知,存在某个$\delta>0$,使得
\inf_{\rho(y,x_0) \alpha假设$\rho(x,x_0)<\frac \delta 2$,那么如果$\rho(y,x)<\frac \delta 2$,我们有$\rho(x,x_0)<\delta$,因此
\inf_{\rho(y,x)\ ...
台大实分析单元 19 Caratheodory Measure 5
这一部分介绍了Lusin定理,补充了Tietze定理。
Theorem 5首先回顾Theorem 5
(i)对A\subset \mathbb R^n\\
\lambda^n(A) =\inf \{ \lambda^n(G): G为开集且A\subset G\}\\
(ii)如果A是\mathbb R^n中可测集,那么\\
\lambda^n(A) = \sup \{\lambda^n(K),K为紧集且K\subset A\}这里老师用更简洁的方法重新证明了(ii),首先有如下Claim
[Claim]
令A是一个有界\lambda^n可测集,那么对任意\epsilon>0,存在一个紧集K\subset A,使得\lambda^n(A\setminus K)
Michael Collins NLP Lecture 2
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲主要介绍了三元语言模型以及参数估计的问题。
1.3 三元语言模型有多种方法可以定义语言模型,本章将介绍一个特别重要的例子,即三元语言模型(trigram language model)。 这将是如上一节所述的马尔可夫模型对语言建模问题的直接应用。 在本节中,我们将给出三元模型的基本定义,讨论了三元模型的最大似然参数估计,最后讨论了三元模型的优点和缺点。
1.3.1 基本定义与马尔可夫模型一样,我们将每个句子建模为$n$个随机变量的序列,$X_1,X_2,…,X_n$。 长度$n$本身是一个随机变量(它可以在不同的句子中变化)。 我们总是有$X_n =\text{STOP}$。 在二阶马尔可夫模型下,任何句子$x_1…x_n$的概率是
P(X_1=x_1,X_2= x_2,...,X_n=x_n)= \prod_{i=1}^n P(X_i=x_i|X_{i-2}= ...
CS229 Lesson 20 策略搜索
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲没有找到对应笔记,这里主要回顾策略搜索。
视频里主要介绍如下内容
策略搜索
Reinforced
Pegasus
后面两个内容的PPT没有找到,所以这里主要介绍策略搜索。
策略搜索定义集合$\Pi$为策略集合,我们的目标是找到好的$\pi \in \Pi$。
随机策略是如下函数
\pi : S\times A \mapsto \mathbb R其中$\pi(s,a)$是在状态$s$采取行动$a$的概率,因此
\sum_{a} \pi (s,a) =1, \pi(s,a)\ge 0考虑倒立摆的例子,$\phi$表示摆和竖直方向的夹角,行动$a_1$表示向右加速,行动$a ...
CS231 第三讲 损失函数和优化
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
这一讲主要介绍损失函数和优化。
损失函数损失函数告诉我们分类器有多好,给定图片数据集$\{(x_i,y_i)\}_{i=1}^N$,$x_i$为图片,$y_i$为标签,定义我们的损失为
L =\frac 1 N \sum_i L_i(f(x_i, W), y_i)其中$L_i$为损失函数。下面先介绍多类别支持向量机损失函数。(Multiclass SVM loss)
多类别支持向量机损失令
s = f(x_i, W)然后定义SVM损失为
\begin{aligned}
L_i
&=\sum_{j\neq y_i} \begin{cases}
0 &如果 s_{y_i} \ge s_j +1\\
s_j -s_{y_i}+1 & 其他
\end{cases} \\
&= \sum_{j\neq y_i} \max(0, s_j -s_{y_i}+1)
\end{aligned}这个 ...
高等概率论第十二讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了几乎处处收敛以及依概率收敛。
1.几乎处处收敛1.定义与基本性质定义
设\{X; X_n ,n\ge 1\}是一列定义在(\Omega ,\mathcal F, \mathbb P),取值于\mathbb R^d中的随机变量,\\
若存在\mathbb P-零集N,使得\forall w \in N^C ,\\
\lim_{n\to \infty} X_n(w)= X(w)\\
则称\{X_n\}几乎处处收敛于X或以概率1收敛于X,\\
记为X_n \overset{a.s}\to X(n\to\infty)或\lim_{n\to \infty}X_n =X (a.s)基本性质
\begin{aligned}
&(1)X_n \overset{a.s}\to X,X_n \overset{a.s}\to Y\Rightarrow X=Y (a.s)\\
&(2)X_n \overset{a.s}\to X,X_n \overset{a.s}\to Y \Rightarrow X_n\pm Y_n
\overset{a ...