高等概率论第四讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了独立性以及数学期望。
4.独立性1.事件与独立性设$\mathcal C_1,…,\mathcal C_n$是$n$个事件类,称其独立,若
\forall \mathcal A_{i_j} \in \mathcal C_{i_j},1\le i_1\le ...\le i_k \le n\\
\mathbb P (A_{i_1}...A_{i_k}) =\mathbb P(A_{i_1})...\mathbb P(A_{i_k})2.随机变量与独立性设$X_1,…,X_n$是定义在$(\Omega ,\mathcal F, \mathbb P)$上,取值于$\mathbb R^d$中的随机变量(向量),若$\forall B_1,…B_n \in \mathcal B^d$,
\mathbb P (X_1\in B_1,...,X_n \in B_n) =\mathbb P(X_1\in B_1)...\mathbb P(X_n \in B_n)则称$X_1,…,X_n$相互独立。
定理2.4.1
在上述记号下,X ...
高等概率论第三讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍随机变量的构造以及随机变量的概率分布。
2.随机变量的构造简单随机变量和初等随机变量的定义设$(\Omega,\mathcal F,\mathbb P)$为概率空间,形如
X =\sum_{i=1}^n a_i 1 _{A_i} ,A_i \in \mathcal F,\bigcup_{i=1}^n A_i =\Omega,A_i互不相交的$X$为简单随机变量。形如
X =\sum_{i=1}^\infty a_i 1 _{A_i} ,A_i \in \mathcal F,
\bigcup_{i=1}^\infty A_i =\Omega,A_i互不相交的$X$为初等随机变量。
定理2.2.1
设X是(\Omega,\mathcal F,\mathbb P)上随机变量\\
\begin{aligned}
&(1) 若X非负,则存在一列非负简单随机变量\lbrace X_n\rbrace ,X_n \uparrow, \lim_{n\to \infty} X_n =X \\
&(2)若X非负,则存在一列非负初等随机变量 ...
CS229 Lesson 17 离散与维数灾难
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了无限状态的马尔可夫决策过程。
连续状态的MDP到目前为止,我们都是将注意力集中在具有有限数量状态的MDP上。我们现在讨论可能具有无限状态的MDP的算法。例如,对于汽车,我们可以用$(x,y,\theta,\dot x, \dot y,\dot \theta)$表示汽车的状态,包括位置$(x,y)$;方向角$\theta$,$x$和$y$方向上的加速度$\dot x$和$\dot y$;以及角速度$\dot \theta$。因此,$S =\mathbb R^6$是一个无限状态集合,因为汽车可能的位置以及方向有无限多个。
在这部分中,我们将考虑状态空间为$S= \m ...
CS229 Lesson 16 马尔可夫决策过程
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了马尔可夫决策过程。
Part XIII 强化学习和控制我们现在开始学习强化学习和适应性控制。
在监督式学习中,我们看到算法试图使他们的输出模仿训练集中给出的标签$y$。在这种设定下,标签为每个输入$x$提供了明确的“正确答案”。相反的,对于许多序列决策问题和控制问题,很难将这种类型的显式监督提供给学习算法。例如,如果我们刚刚建造了一个四足机器人,并试图对它编程,让它能行走,那么最初我们不知道采取什么样的“正确”行动是为了让它行走,所以不知道如何提供明确监督学习算法以试图模仿。
在强化学习框架中,取而代之的,我们将给算法提供一个奖励函数,该函数向 ...
CS229 Lesson 15 奇异值分解
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了奇异值分解以及独立成分分析。
奇异值分解这部分来自老师上课笔记,讲义中没有,首先介绍奇异值分解的定义:
奇异值分解的定义设$A$是一个$m\times n$矩阵, 则存在$m$阶正交矩阵$U$和$n$阶正交矩阵$V$, 满足
A=U \left[
\begin{matrix}
\sigma_1 && & \\
& \ddots && \\
&&\sigma_r& \\
&&&0
\end{matrix}
\right] V^T=UD V^T 其中$\text{r = rank A},D\in \mathbb R^{m\times ...
CS229 Lesson 14 主成分分析法
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍因子分析的EM算法以及PCA。
4.针对因子分析的EM算法E步骤的推导很简单。我们需要计算$Q_i(z^{(i)}) = p(z^{(i)}|x^{(i)};\mu,\Lambda,\Psi)$。将均值和方差带入高斯分布的条件期望公式,我们发现$z^{(i)}|x^{(i)};\mu,\Lambda,\Psi \sim \mathcal N(\mu_{z^{(i)}|x^{(i)}}, \Sigma_{z^{(i)}|x^{(i)}})$,其中
\begin{aligned}
\mu_{z^{(i)}|x^{(i)}}&=\Lambda^T(\Lambda\Lamb ...
CS229 Lesson 13 高斯混合模型
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍EM算法和因子分析,回顾了高斯混合模型。
回顾EM算法
重复直到收敛
(E步骤)对每个$i$,令
Q_i(z^{(i)}) = p(z^{(i)}|x^{(i)};\theta)
(M步骤)令
\theta:=\arg\max_{\theta} \sum_{i} \sum_{z^{(i)}}{Q_i(z^{(i)})} \log \frac {p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}
我们怎么知道这个算法是否收敛呢?假设$\theta^{(t)}$和$\theta^{(t+1)}$是两次成功迭代得到的参 ...
CS229 Lesson 12 K-means算法
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了K-means算法,GMM模型以及EM算法。
$k$均值聚类算法在聚类问题中,我们得到训练集$\{x^{(i)},…,x^{(m)}\}$,然后想把数据分成几个相关的“簇”。这里$x^{(i)}\in \mathbb R^n$,但是没有$y^{(i)}$。所以这是个非监督学习问题。
$k$均值聚类算法如下:
1.随机初始化几个聚类中心$\mu_1,…,\mu_k \in \mathbb R^n$
2.重复如下操作直到收敛:{
对每个$i$,令
c^{(i)}:=\arg\min_j ||x^{(i)} - \mu_j||^2
对每个$j$,令
\mu_ ...
CS229 Lesson 11 贝叶斯统计正则化
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了贝叶斯统计和正则化。
3 贝叶斯统计和正则化在这个部分中,我们将讨论另一个对抗过拟合的工具。
在本章开始的时候,我们利用最大似然估计讨论参数拟合,利用如下方式选择参数:
\theta_{\text{ML}}=\arg\max_{\theta} \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)在随后的讨论中,我们将$\theta$视为一个未知的参数,这种将$\theta$看成恒定但是未知的值是频率学派的观点。而另一种进行参数估计的方法是使用贝叶斯的视角,将$\theta$视为一个未知的随机变量,在这种方法下,我们要给$\theta$ ...
高等概率论第二讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲继续概率空间的内容以及介绍随机变量与概率分布。
2.概率测度1.基本概念设$\Omega$是样本空间,$\mathcal F$是其上的$\sigma$代数,则称$(\Omega,\mathcal F)$是可测空间。
定义:设$\mathbb P$是$\mathcal F$上的一个(集合)函数,若它满足
\begin{aligned}
&(1)\mathbb P(A)\ge 0 ,\forall A \in \mathcal F \\
&(2)\mathbb P(\Omega)=1 \\
&(3) A_n \in \mathcal F且互不相交\Rightarrow
\mathbb P(\bigcup_{n=1}^{\infty} A_n)
=\sum_{n=1}^{\infty} \mathbb P(A_n)
\end{aligned}则称$\mathbb P$为$\mathcal F$上的一个概率测度,$\mathbb P(A)$称为$A$的概率,称$(\Omega,\mathcal F,\mathbb P)$为概 ...
高等概率论第一讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲内容为概率空间的基本定义。
Chapter 1 概率空间1.集类与事件域1.几种常见的集类半(集)代数定义:若子集类$\mathscr S$满足:
\begin{aligned}
&(1)\Omega \in \mathscr S ,\varnothing \in \mathscr S \\
&(2) A,B \in \mathscr S \Rightarrow AB\in \mathscr S \\
&(3) A, A_1 \in \mathscr S且A_1 \subset A \Rightarrow
\exists A_2,...,A_n \in \mathscr S 两两不交使得 A- A_1= \bigcup_{i=2}^n A_i
\end{aligned}则称$\mathscr S$为(集)代数。
(集)代数定义:若子集类$\mathscr A$满足:
\begin{aligned}
&(1)\Omega \in \mathscr A \\
&(2) A \in \mathscr A \Righta ...
Hexo博客next主题数学公式重复显示
折腾了整整两天算是把公式连续显示的问题解决了,下面简单总结下。
之前发过一个帖子,我的博客产生了如下问题:
当时我确实解决了这个问题,但偶尔还会出现上述情形,神奇的是,多hexo g,hexo d几次又会解决,但最近一次更新博客后,无论操作几次,都是上述显示,甚至更乱,尝试了网上很多方法后依旧没有,推测产生上述的原因是katex和mathjax重复渲染,但是具体解决方法不知。最后抱着试一试的态度把整个博客系统重装了一下,结果还真的好了,重装大法真无敌。
啰嗦了半天,总结如下:
1.如果产生上述问题,建议直接换个目录重装博客系统,也就几分钟的事情。
2.https://www.jianshu.com/p/e8d433a2c5b7 按照这位大佬的配置,之后就完全OK了。