CS229 Lesson 18 线性二次型调节控制
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了LQR以及Ricatti方程。
Part XIV LQR,DDP和LQGLQR,DDP和LQG分别代表线性二次调节,微分动态规划和线性二次高斯分布。
1.有限范围的MDP在之前关于强化学习的讲义中,我们在简化的情形中定义了马尔可夫决策过程(MDP)并涵盖了价值迭代/策略迭代。更具体地说,我们引入了最优Bellman方程,该方程定义了最优策略$\pi’$的最优价值函数$V^{\pi’}$。
V^{\pi'} (s) = R(s) + \max_{a\in \mathcal A}\gamma \sum_{s'\in \mathcal S}
P_{sa}(s') V^{\pi ...
高等概率论第六讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍乘积测度与独立性。
Chapter 4乘积测度与独立性1.有限维情形1.乘积测度
设(E_1, \Sigma_1, \mu_1)和(E_2, \Sigma_2, \mu_2)是两个概率空间,\\
在E_1\times E_2= \{w =(w_1,w_2), w_1 \in E_1, w_2 \in E_2\}上定义\sigma代数\\
\Sigma_1\times \Sigma_2 = \sigma \{\Sigma_1\times \Sigma_2 :A_1 \in \Sigma_1,
A_2 \in \Sigma_2 \} \\
称为E_1, E_2的乘积\sigma 代数,称为(E_1\times E_2, \Sigma_1\times \Sigma_2)为乘积
可测空间定理4.1.1
在\Sigma_1\times \Sigma_2上存在唯一概率测度\mu满足\\
\mu(A_1\times A_2) = \mu_1 (A_1)\times \mu_1 (A_2),
A_1 \in \Sigma_1, A_2 ...
高等概率论第五讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍期望计算以及收敛定理。
3.积分变换和期望计算定理3.3.1
设(\Omega ,\mathcal F, \mathbb P)是概率空间,X是定义在其上,取值于可测空间(E,\Sigma)的随机变量(随机元),\\
f是(E,\Sigma)到(\mathbb R, \mathcal B)上可测函数,\\
则\int_{\Omega} f(X) d\mathbb P= \mathbb E [f(X)]= \int_{E}f(x)\mu_X(dx)
,其中\mu_X是X在\mathbb P下的概率分布\\
该等式的意义是一个若一个积分有意义,则另一个积分也有意义且相等证明:老师没有给出完整证明,主要讲解了证明思路。
当$f=1_A,A\in \Sigma$时,
左边=\mathbb E[1_A(X)]= \mathbb E[1_{X\in A}]=\mathbb P(X\in A)
=\mu_X(A) = \int 1_A(X) \mu_X(dx)=右边接下来的思路是将其推广到非负简单,再到非负可测,最后到一般情形。
...
高等概率论第四讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍了独立性以及数学期望。
4.独立性1.事件与独立性设$\mathcal C_1,…,\mathcal C_n$是$n$个事件类,称其独立,若
\forall \mathcal A_{i_j} \in \mathcal C_{i_j},1\le i_1\le ...\le i_k \le n\\
\mathbb P (A_{i_1}...A_{i_k}) =\mathbb P(A_{i_1})...\mathbb P(A_{i_k})2.随机变量与独立性设$X_1,…,X_n$是定义在$(\Omega ,\mathcal F, \mathbb P)$上,取值于$\mathbb R^d$中的随机变量(向量),若$\forall B_1,…B_n \in \mathcal B^d$,
\mathbb P (X_1\in B_1,...,X_n \in B_n) =\mathbb P(X_1\in B_1)...\mathbb P(X_n \in B_n)则称$X_1,…,X_n$相互独立。
定理2.4.1
在上述记号下,X ...
高等概率论第三讲
记录本校的高等概率论课程笔记,参考教材《测度与概率》。
本讲介绍随机变量的构造以及随机变量的概率分布。
2.随机变量的构造简单随机变量和初等随机变量的定义设$(\Omega,\mathcal F,\mathbb P)$为概率空间,形如
X =\sum_{i=1}^n a_i 1 _{A_i} ,A_i \in \mathcal F,\bigcup_{i=1}^n A_i =\Omega,A_i互不相交的$X$为简单随机变量。形如
X =\sum_{i=1}^\infty a_i 1 _{A_i} ,A_i \in \mathcal F,
\bigcup_{i=1}^\infty A_i =\Omega,A_i互不相交的$X$为初等随机变量。
定理2.2.1
设X是(\Omega,\mathcal F,\mathbb P)上随机变量\\
\begin{aligned}
&(1) 若X非负,则存在一列非负简单随机变量\lbrace X_n\rbrace ,X_n \uparrow, \lim_{n\to \infty} X_n =X \\
&(2)若X非负,则存在一列非负初等随机变量 ...
CS229 Lesson 17 离散与维数灾难
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了无限状态的马尔可夫决策过程。
连续状态的MDP到目前为止,我们都是将注意力集中在具有有限数量状态的MDP上。我们现在讨论可能具有无限状态的MDP的算法。例如,对于汽车,我们可以用$(x,y,\theta,\dot x, \dot y,\dot \theta)$表示汽车的状态,包括位置$(x,y)$;方向角$\theta$,$x$和$y$方向上的加速度$\dot x$和$\dot y$;以及角速度$\dot \theta$。因此,$S =\mathbb R^6$是一个无限状态集合,因为汽车可能的位置以及方向有无限多个。
在这部分中,我们将考虑状态空间为$S= \m ...
CS229 Lesson 16 马尔可夫决策过程
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了马尔可夫决策过程。
Part XIII 强化学习和控制我们现在开始学习强化学习和适应性控制。
在监督式学习中,我们看到算法试图使他们的输出模仿训练集中给出的标签$y$。在这种设定下,标签为每个输入$x$提供了明确的“正确答案”。相反的,对于许多序列决策问题和控制问题,很难将这种类型的显式监督提供给学习算法。例如,如果我们刚刚建造了一个四足机器人,并试图对它编程,让它能行走,那么最初我们不知道采取什么样的“正确”行动是为了让它行走,所以不知道如何提供明确监督学习算法以试图模仿。
在强化学习框架中,取而代之的,我们将给算法提供一个奖励函数,该函数向 ...
CS229 Lesson 15 奇异值分解
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了奇异值分解以及独立成分分析。
奇异值分解这部分来自老师上课笔记,讲义中没有,首先介绍奇异值分解的定义:
奇异值分解的定义设$A$是一个$m\times n$矩阵, 则存在$m$阶正交矩阵$U$和$n$阶正交矩阵$V$, 满足
A=U \left[
\begin{matrix}
\sigma_1 && & \\
& \ddots && \\
&&\sigma_r& \\
&&&0
\end{matrix}
\right] V^T=UD V^T 其中$\text{r = rank A},D\in \mathbb R^{m\times ...
CS229 Lesson 14 主成分分析法
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍因子分析的EM算法以及PCA。
4.针对因子分析的EM算法E步骤的推导很简单。我们需要计算$Q_i(z^{(i)}) = p(z^{(i)}|x^{(i)};\mu,\Lambda,\Psi)$。将均值和方差带入高斯分布的条件期望公式,我们发现$z^{(i)}|x^{(i)};\mu,\Lambda,\Psi \sim \mathcal N(\mu_{z^{(i)}|x^{(i)}}, \Sigma_{z^{(i)}|x^{(i)}})$,其中
\begin{aligned}
\mu_{z^{(i)}|x^{(i)}}&=\Lambda^T(\Lambda\Lamb ...
CS229 Lesson 13 高斯混合模型
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍EM算法和因子分析,回顾了高斯混合模型。
回顾EM算法
重复直到收敛
(E步骤)对每个$i$,令
Q_i(z^{(i)}) = p(z^{(i)}|x^{(i)};\theta)
(M步骤)令
\theta:=\arg\max_{\theta} \sum_{i} \sum_{z^{(i)}}{Q_i(z^{(i)})} \log \frac {p(x^{(i)},z^{(i)};\theta)}{Q_i(z^{(i)})}
我们怎么知道这个算法是否收敛呢?假设$\theta^{(t)}$和$\theta^{(t+1)}$是两次成功迭代得到的参 ...
CS229 Lesson 12 K-means算法
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了K-means算法,GMM模型以及EM算法。
$k$均值聚类算法在聚类问题中,我们得到训练集$\{x^{(i)},…,x^{(m)}\}$,然后想把数据分成几个相关的“簇”。这里$x^{(i)}\in \mathbb R^n$,但是没有$y^{(i)}$。所以这是个非监督学习问题。
$k$均值聚类算法如下:
1.随机初始化几个聚类中心$\mu_1,…,\mu_k \in \mathbb R^n$
2.重复如下操作直到收敛:{
对每个$i$,令
c^{(i)}:=\arg\min_j ||x^{(i)} - \mu_j||^2
对每个$j$,令
\mu_ ...
CS229 Lesson 11 贝叶斯统计正则化
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲介绍了贝叶斯统计和正则化。
3 贝叶斯统计和正则化在这个部分中,我们将讨论另一个对抗过拟合的工具。
在本章开始的时候,我们利用最大似然估计讨论参数拟合,利用如下方式选择参数:
\theta_{\text{ML}}=\arg\max_{\theta} \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)在随后的讨论中,我们将$\theta$视为一个未知的参数,这种将$\theta$看成恒定但是未知的值是频率学派的观点。而另一种进行参数估计的方法是使用贝叶斯的视角,将$\theta$视为一个未知的随机变量,在这种方法下,我们要给$\theta$ ...