台大实分析单元 21 Riemann 与 Lebesgue 积分(2)
这一部分继续介绍Riemann积分和Lebesgue积分的关系,然后介绍Radon测度的导数。
Theorem 1
f在I上黎曼可积当且仅当在I上几乎处处连续证明:假设$f$在$I$上黎曼可积,那么
\int_I \underline f d\lambda^n=\underline \int_I f =\overline \int_I f
=\int_I \overline f d\lambda^n所以
\int_I (\bar f -\underline f ) d\lambda^n =0因为$\bar f \ge \underline f$,所以在$I$上
\bar f =\underline f\ \ (a.e)即在$I$上
\bar f =f=\underline f\ \ (a.e)因此$f$在$I$上几乎处处连续。
反之,如果$f$在$I$上几乎处处连续,那么在$I$上
\bar f =f=\underline f\ \ (a.e)因此
\underline \int_I f =\int_I \underline f d\lambda^n
=\int ...
CS231 第六讲 训练神经网络(上)
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
这一讲主要介绍训练神经网络的一些技巧。
激活函数回顾神经元的架构
我们首先进行线性运算,接着使用激活函数$f$,常用激活函数如下
下面分别介绍这几个激活函数。
Sigmoid
Sigmoid函数有如下三个问题:
1.饱和的神经元会使得梯度消失。
这是因为当$x$绝对值很大时,Sigmoid函数的导数几乎为$0$(这点从图像中就能看出),而这会使训练过程很缓慢。
2.Sigmoid函数输出结果的均值不是$0$。
由于Sigmoid函数输出结果都大于$0$,由乘法门的含义可知,这会导致梯度的符号都相同,这也不利于训练。
3.$\exp()$有一定的计算量。
这个算是比较次要的原因,感觉主要是和之后的ReLU作对比。
tanh
tanh函数可以克服上述第2个问题,因为输出结果的均值为$0$,但是问题1,3依然没有解决。
ReLU
ReLU函数可以有效克服问题1,但是输出结果的均值不是$0 ...
CS229 Lesson 1 机器学习的动机与应用
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
整理完9到20讲之后开始回过头来整理前面8讲,第一讲主要对机器学习做了简介。
监督式学习让我们首先谈谈监督学习问题的几个例子。假设我们有一个数据集,给出了俄勒冈州波特兰市47所房屋的房间大小和价格:
作图可得:
根据这样的数据,我们如何根据房间大小来学习预测波特兰其他房屋的价格?
我们将使用$x^{(i)}$来表示“输入”变量(这个例子中为房间大小),也称为输入特征,$y^{(i)}$表示“输出”或我们正试图预测的目标变量(此处为价格)。 一对$(x^{(i)},y^{(i)})$被称为训练样本,我们将用于学习的数据集——$m$个训练样本$\{(x^ ...
CS231 第五讲 卷积神经网络
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
这一讲主要介绍卷积神经网络。
第一部分是介绍历史,这里略过,直接进入正题。
卷积神经网络卷积神经网络主要用于计算机视觉领域,处理对象为图片,首先来比较卷积神经网络和之前介绍的神经网络的区别。
之前介绍的神经网络每层被称为全连接层,形式如下
而卷积神经网络有卷积层,形式如下
那么为什么要使用卷积层而不是全连接层呢?主要如下两个原因。第一个原因是全连接层的权重太多,例如$200\times 200\times 3$的图像将有$120,000$个权重,这很容易导致过拟合(参数太多)以及计算成本太大;第二个原因是图像中有很多模式重复出现,例如边缘等等,使用滤波器可以复用这些共同特征。
下面详细介绍卷积层。
卷积层下面假设图像的维度为$W_1 \times H_1 \times D_1$,一般来说,滤波器前两个维度相等,而第三个维度必须等于图像的第三个维度,从而这里假设滤波器的维度为$F\times ...
Hexo博客deploy报错
今天hexo写博客的时候又遇到一个坑,这里简单记录下。
出现的问题是hexo d之后有如下报错:
Template render error: (unknown path) [Line 147, Column 121]
expected variable end
网上查了下,发现原因是因为出现了如下形式的连续两个大括号:
{{ ,}}
发现问题后,我让大括号之间带个空格,即使用:
{ { ,} }
替换上述符号,果然解决了。
高等概率论第十五讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了强大数定律,特征函数以及中心极限定理。
2.(弱)大数定律(LLN)定理7.1.1
设\lbrace X_n\rbrace \ iid,那么存在\lbrace a_n\rbrace 使得 \frac{S_n}{n}-a_n \overset{\mathbb P} \to 0 \Leftrightarrow
\lim_{x\to \infty} x \mathbb P (|X_1|>x)= 0证明:仅证明$\Leftarrow$:$\forall n \ge 1, 1\le k \le n$,定义
X_{nk}\triangleq X_k 1_{\lbrace |X_k|\le n\rbrace } ,\hat S_n =\sum_{k=1}^n X_{nk}不难看出$y_k=X_{nk}$独立同分布,则
\begin{aligned}
\frac 1{n^2} \text{Var}(\hat S_n)
&=\frac 1 {n^2} \sum_{k=1}^n \text{Var}(X_{nk})\\
&\l ...
高等概率论第十四讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲继续上次的内容并介绍弱大数定律。
定理 6.4.2
设\lbrace F_n,n\ge 1\rbrace 是\mathbb R^d上一列概率分布函数,则它一定有淡收敛子列证明:利用对角线方法。
记$Q= \lbrace r_1,r_2,…,r_n,…\rbrace $为全体有理数,因为$\lbrace F_n (r_1)\rbrace $有界,因此有收敛子列$\lbrace F_{1n} (r_1)\rbrace $,记
F_{1n} (r_1)\to F(r_1),n\to \infty因为$\lbrace F_{1n} (r_2)\rbrace $也有界,因此有收敛子列$\lbrace F_{2n} (r_2)\rbrace $,记
F_{2n} (r_2) \to F(r_2), n\to \infty注意$F_{1n}$在$r_1$收敛,$F_{2n}$在$r_1,r_2$收敛,如此下去,得到阵列
\left(
\begin{matrix}
F_{11} & F_{12}& ... & F_{1n}& ...
高等概率论第十三讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了矩收敛,$L^r$收敛,依分布收敛以及概率测度的弱收敛。
3.矩收敛与$L^r$收敛1.$L^r$收敛$L^r$收敛的定义定义:
设(\Omega, \mathcal F, P)是一概率空间,定义L^r=L^r(\Omega, \mathcal F, P) =\{r.v\ \ X:\mathbb E|X|^r< \infty\}。\\若\{X;X_n ,n\ge 1\}\subset L^r且\mathbb E|x _n-x|^r \to 0,则称X_n \ r阶矩收敛于X,记为:\\
X_n \overset{r} \to X \ \ \ \ \ (n\to \infty)推论(1)
X_n \overset {r}\to X \Rightarrow X_n \overset{P}\to X \ \ \ \ \ (n\to \infty)证:$\forall \epsilon >0$
\mathbb P(|X_n -X| \ge \epsilon) \le \epsilon^{-r} \mathbb E ...
CS231 第四讲 介绍神经网络
课程视频地址:https://study.163.com/courses-search?keyword=CS231
课程主页:http://cs231n.stanford.edu/2017/
这一讲主要介绍反向传播以及神经网络。
反向传播反向传播是计算梯度的一种方法,这种方法需要利用计算图,计算图的每个节点表示我们执行的每一步计算,例如上一讲介绍的损失函数的计算图如下
第一个节点计算得分${s}$,第二个节点计算折页损失,最后一个节点计算总损失(加上正则项)。
计算图的计算步骤分为前向传播以及反向传播,刚刚描述的步骤为前向传播,现在我们结合下图理解反向传播计算梯度的思路
对于每个节点,假设我们已知输出的梯度$\frac{\partial L}{\partial z}$,我们现在要计算输入的梯度$\frac{\partial L}{\partial x},\frac{\partial L}{\partial y}$,计算的思路很简单,利用链式法则,首先计算“局部梯度”$\frac{\partial z}{\partial x},\frac{\partial z}{\partial ...
台大实分析单元 20 Riemann 与 Lebesgue 积分
这一部分介绍了Riemann积分和Lebesgue积分的关系。
Appendix B Riemann and Lebesgue integral这一部分讨论黎曼积分和勒贝格积分的关系,首先需要定义任意度量空间上的黎曼积分。
令$f$是定义在度量空间$(M,\rho)$上的有界函数。定义
\underline f (x)=\lim_{\delta\to 0^+} \inf_{\rho(y,x)\alpha\}是开集证明:显然有
\overline f = -\underline {(-f)}所以只要证明$\{\underline f >\alpha\}$是开集即可。
取$x_0 \in \{\underline f >\alpha\}$,那么由定义可知,存在某个$\delta>0$,使得
\inf_{\rho(y,x_0) \alpha假设$\rho(x,x_0)<\frac \delta 2$,那么如果$\rho(y,x)<\frac \delta 2$,我们有$\rho(x,x_0)<\delta$,因此
\inf_{\rho(y,x)\ ...
台大实分析单元 19 Caratheodory Measure 5
这一部分介绍了Lusin定理,补充了Tietze定理。
Theorem 5首先回顾Theorem 5
(i)对A\subset \mathbb R^n\\
\lambda^n(A) =\inf \{ \lambda^n(G): G为开集且A\subset G\}\\
(ii)如果A是\mathbb R^n中可测集,那么\\
\lambda^n(A) = \sup \{\lambda^n(K),K为紧集且K\subset A\}这里老师用更简洁的方法重新证明了(ii),首先有如下Claim
[Claim]
令A是一个有界\lambda^n可测集,那么对任意\epsilon>0,存在一个紧集K\subset A,使得\lambda^n(A\setminus K)
Michael Collins NLP Lecture 2
课程主页:http://www.cs.columbia.edu/~cs4705/
课程网盘地址:
链接:https://pan.baidu.com/s/1KijgO7yjL_MVCC9zKZ7Jdg提取码:t1i3
这一讲主要介绍了三元语言模型以及参数估计的问题。
1.3 三元语言模型有多种方法可以定义语言模型,本章将介绍一个特别重要的例子,即三元语言模型(trigram language model)。 这将是如上一节所述的马尔可夫模型对语言建模问题的直接应用。 在本节中,我们将给出三元模型的基本定义,讨论了三元模型的最大似然参数估计,最后讨论了三元模型的优点和缺点。
1.3.1 基本定义与马尔可夫模型一样,我们将每个句子建模为$n$个随机变量的序列,$X_1,X_2,…,X_n$。 长度$n$本身是一个随机变量(它可以在不同的句子中变化)。 我们总是有$X_n =\text{STOP}$。 在二阶马尔可夫模型下,任何句子$x_1…x_n$的概率是
P(X_1=x_1,X_2= x_2,...,X_n=x_n)= \prod_{i=1}^n P(X_i=x_i|X_{i-2}= ...