CS236 Deep Generative Models Lecture 2
课程主页:https://deepgenerativemodels.github.io/
课件资料:https://github.com/Subhajit135/CS236_DGM,https://github.com/deepgenerativemodels/notes
视频地址:https://www.bilibili.com/video/av81625948?from=search&seid=4636291486683332935
这里回顾CS236 Lecture 2的课程内容,这一讲简单介绍了Representation。
Representation学习生成模型
我们给定了一组训练样本,例如狗的图片
我们希望学习关于图像$x$的概率分布$p(x)$,使得我们可以进行如下任务:
生成:如果我们进行采样$x_{\text{new}} \sim p(x)$,那么$x_{\text{new}}$应该看起来像狗
密度估计:如果$x$像狗,那么$p(x)$应该较大;如果不像狗,$p(x)$应该比较小
无监督表示学习:我们应该能够学习图像的共同特点(特征),例如耳朵,尾巴 ...
CS224N Natural Language Processing with Deep Learning Lecture 4
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 4的课程内容,这一讲介绍了矩阵微积分以及反向传播。
反向传播雅克比矩阵假设我们有函数$f: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$,其中
\boldsymbol{f}(\boldsymbol{x})=\left[f_{1}\left(x_{1}, \dots, x_{n}\right), f_{2}\left(x_{1}, \dots, x_{n}\right), \dots, f_{m}\left(x_{1}, \dots, x_{n}\right)\right]那么雅克比矩阵为如下矩阵
\frac{\partial \boldsymbol{f}}{\partial \boldsymbol ...
CS224N Natural Language Processing with Deep Learning Lecture 3
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 3的课程内容,这一讲介绍了神经网络以及分类问题。
分类问题的介绍假设我们有训练集
\left\{x_{i}, y_{i}\right\}^{N}_{i=1}其中$x_i\in \mathbb R^d$为输入,$y_i$为标签(离散值)。
传统的方法是使用softmax分类器,即
p(y | x)=\frac{\exp \left(W_{y\cdot } x\right)}{\sum_{c=1}^{C} \exp \left(W_{c\cdot } x\right)}其中
W_{y \cdot }x=\sum_{i=1}^{d} W_{y i} x_{i}=f_{y}度量上述概率的方式是使用交叉熵:
H(p, q)=-\sum_{c= ...
CS224N Natural Language Processing with Deep Learning Lecture 2
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 2的课程内容,这一讲介绍了GloVe。
Global Vectors for Word Representation (GloVe)Co-occurrence Matrix记$X_{ij}$表示单词$j$出现在单词$i$的上下文的频数,那么
X_{i}=\sum_{k} X_{i k}表示单词$i$的上下文所有单词的数量,$P_{i j}=P\left(w_{j} | w_{i}\right)=\frac{X_{i j}}{X_{i}}$表示单词$j$出现在单词$i$上下文的概率。
Least Squares Objective类似skip-gram model,我们利用下式计算单词$j$出现在单词$i$的上下文的概率
Q_{i j}= ...
CS224N Natural Language Processing with Deep Learning Lecture 1
课程主页:https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1194/
视频地址:https://www.bilibili.com/video/av46216519?from=search&seid=13229282510647565239
这里回顾CS224N Lecture 1的课程内容,这一讲简单介绍了Word2vec,CBOW以及Skip-Gram Model。
如何表示单词one-hot最直接的方式是使用one-hot向量,即除了一个位置为$1$,其余位置为$0$的向量,但这个方式有个明显的问题,无法表示单词的相似性,因为任意两个不同的one-hot向量正交,例如
\begin{aligned}
\text { motel }&=[000000000010000]\\
\text { hotel }&=[000000010000000]
\end{aligned}motel和hotel意思相近,但是该表示无法体现这点。
Co-occurrence Matrix该方法的思想很简单,给定一个单词,统计在某个 ...
CS236 Deep Generative Models Lecture 1
课程主页:https://deepgenerativemodels.github.io/
课件资料:https://github.com/Subhajit135/CS236_DGM,https://github.com/deepgenerativemodels/notes
视频地址:https://www.bilibili.com/video/av81625948?from=search&seid=4636291486683332935
这里回顾CS236 Lecture 1的课程内容,这一讲简单介绍了生成模型。
统计生成模型统计生成模型是一个概率分布$p(x)$,它由数据和先验生成:
数据:样本(例如卧室的图像)
先验知识:参数形式,损失函数,优化算法等等
该课程所介绍的深度生成模型主要靠数据驱动。
判别 VS 生成判别模型生成条件概率$P(Y|X)$,例如:
生成模型生成联合分布$P(X,Y)$,所以它比判别模型更强,因为可以利用贝叶斯公式计算条件概率:
因为判别模型需要给定$X$,所以无法处理缺失数据的情形。
条件生成模型给定$Y$(少量信息,例如描述),生成$ ...
David silver 强化学习 Lecture 5
课程主页:https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture 5的课程内容,这一讲简单介绍了不基于模型的控制。
介绍上一讲介绍不基于模型的预测,即对未知的MDP预测其价值函数;这一讲介绍不基于模型的控制,即对于未知的MDP优化其价值函数。
On-Policy Monte-Carlo Control
关于$V(s)$做策略提升需要MDP模型:
\pi^{\prime}(s)=\underset{a \in \mathcal{A}}{\operatorname{argmax}} \mathcal{R}_{s}^{a}+\mathcal{P}_{s s^{\prime}}^{a} V\left(s^{\prime}\right)
关于$Q(s,a)$做策略提升不需要模型
\pi^{\prime}(s)=\underset{a \in \mathcal{A}}{\operatorname{argmax}} Q(s, a)
$\epsilon-$贪婪搜索这里老师举了一个例子:
有两扇门在我们面前
打开左门 ...
David silver 强化学习 Lecture 4
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture 4的课程内容,这一讲简单介绍了不基于模型的预测。
介绍上一讲介绍了如何通过DP进行规划,那里假设MDP已知;这一讲介绍不基于模型的预测,即对未知的MDP预测其价值函数。
蒙特卡洛学习
目标:通过策略$\pi$下的信息学习$v_\pi$
S_{1}, A_{1}, R_{2}, \ldots, S_{k} \sim \pi
注意回报(return)是折扣奖励:
G_{t}=R_{t+1}+\gamma R_{t+2}+\ldots+\gamma^{T-1} R_{T}
回报价值函数是回报(return)的期望:
v_{\pi}(s)=\mathbb{E}_{\pi}\left[G_{t} | S_{t}=s\right]
蒙特卡洛策略评估使用经验均值回报而非期望回报
具体方式如下:
为了评估状态$s$
在一幕(episode)中访问状态$s$的第一个(每一个)时间戳$t$
增加计数器$N(s) \leftarrow N(s)+1$ ...
David silver 强化学习 Lecture 3
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture 3的课程内容,这一讲简单介绍了通过动态规划进行控制。
介绍DP的要求动态规划用于解决满足以下条件的问题:
最优子结构
重叠子问题
而MDP同时满足以上两个特性。
通过DP规划
DP假设有MDP的完全信息
DP用于MDP的规划
对于预测:
输入:MDP $\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$和策略$\pi$
或:MRP $\left\langle\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma\right\rangle$
输出:价值函数$v_\pi$
对于控制:
输入:MDP $\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$
输出:最有价值函数$v_\star$
...
David silver 强化学习 Lecture 2
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture2 的课程内容,这一讲简单介绍了马尔可夫决策过程。
马尔可夫过程马尔可夫性定义
状态$S_t$有马尔可夫性当且仅当
\mathbb{P}\left[S_{t+1} | S_{t}\right]=\mathbb{P}\left[S_{t+1} | S_{1}, \ldots, S_{t}\right]
状态从历史中捕获所有相关信息
一旦知道状态后,历史可以被丢弃
状态是未来的充分统计量
状态转移矩阵对于马尔可夫状态$s$和后继状态$s’$,状态转移概率被定义为
\mathcal{P}_{s s^{\prime}}=\mathbb{P}\left[S_{t+1}=s^{\prime} | S_{t}=s\right]状态转移矩阵$\mathcal P$定义了从所有状态$s$到后继状态$s’$的概率,
\mathcal{P}=\left[\begin{array}{ccc}{\mathcal{P}_{11}} & {\cdots} & {\ ...
David silver 强化学习 Lecture 1
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture 1的课程内容,这一讲简单介绍了强化学习。
强化学习的特点强化学习是机器学习的一个分支,它和监督学习以及非监督学习的关系如下:
强化学习两个重要元素为智能体和环境,它和机器学习的其他分支最明显的区别为:
没有监督,只有奖励信号
反馈是延迟的,不是即时的
时间很重要(即数据为序列,非独立同分布的)
智能体的动作影响其收到的后续数据
强化学习问题奖励
奖励$R_t$是标量反馈信号
表示智能体在步骤$t$的表现
智能体的工作是使累积奖励最大化
强化学习基于奖励假设,下面给出正式定义:
定义(奖励假设)
所有目标都可以通过累积奖励的期望最大化来描述。
序列决策
目标:选择可最大化未来总回报的行动
行动可能会带来长期结果
奖励可能会延迟
牺牲即时奖励以获得更多长期奖励可能更好
环境环境是强化学习的一个重要概念,其和智能体的交互关系可以用下图表示:
在每个步骤$t$,智能体:
执行动作$A_t$
接受观测值$O_t$
收到标量奖励$R_t$ ...
CS234 Lecture 1
课程主页: http://web.stanford.edu/class/cs234/index.html
由于实习的原因,需要补充RL方面的知识,目前找了两份资料,一个David Silver的课程,另一个是CS234,这部分是对CS234的整理,第一讲的主题是Introduction to RL。
序列决策过程考虑序列决策过程,其模式如下
在每个时间戳$t$:
智能体采取行动$a_t$
环境根据$a_t$进行更新,给出观测值$o_t$和奖励$r_t$
智能体得到观测值$o_t$和奖励$r_t$
由此不难得到历史$h_{t}=\left(a_{1}, o_{1}, r_{1}, \ldots, a_{t}, o_{t}, r_{t}\right)$
智能体根据历史选择行动
状态是决定下一步会发生什么的信息:$s_t= f(h_t)$
马尔可夫假设状态$s_t$具有马尔可夫性当且仅当:
p\left(s_{t+1} | s_{t}, a_{t}\right)=p\left(s_{t+1} | h_{t}, a_{t}\right)即状态信息是历史的充分统计量。
实际中 ...