加载中...

CS234 Lecture 1

发表于2019-11-16|更新于2019-11-23|Reinforcement Learning|CS234 Reinforcement Learning

|字数总计:618|阅读时长:2分钟|阅读量:|评论数:

课程主页： http://web.stanford.edu/class/cs234/index.html

由于实习的原因，需要补充RL方面的知识，目前找了两份资料，一个David Silver的课程，另一个是CS234，这部分是对CS234的整理，第一讲的主题是Introduction to RL。

序列决策过程

考虑序列决策过程，其模式如下

在每个时间戳$t$：
- 智能体采取行动$a_t$
- 环境根据$a_t$进行更新，给出观测值$o_t$和奖励$r_t$
- 智能体得到观测值$o_t$和奖励$r_t$
由此不难得到历史$h_{t}=\left(a_{1}, o_{1}, r_{1}, \ldots, a_{t}, o_{t}, r_{t}\right)$
智能体根据历史选择行动
状态是决定下一步会发生什么的信息：$s_t= f(h_t)$

马尔可夫假设

状态$s_t$具有马尔可夫性当且仅当：

$p\left(s_{t+1} | s_{t}, a_{t}\right)=p\left(s_{t+1} | h_{t}, a_{t}\right)$

即状态信息是历史的充分统计量。

实际中通常取$s_t= o_t$

RL算法元素

RL算法是处理序列决策过程的算法，通常包括如下元素：

模型：代表环境如何响应智能体的行为而变化
策略：将智能体的状态映射到动作的函数
价值函数：遵循特定策略时，处于某状态和/或行动所带来的未来回报

模型

模型描述了环境如何响应智能体的行动而产生的变化
动态模型预测了智能体的下一步状态
$p\left(s_{t+1}=s^{\prime} | s_{t}=s, a_{t}=a\right)$
价值模型预测了即时奖励
$r\left(s_{t}=s, a_{t}=a\right)=\mathbb{E}\left[r_{t} | s_{t}=s, a_{t}=a\right]$

策略

策略$\pi$决定了智能体如何采取行动
$\pi: S \rightarrow A$，即策略将状态映射到行动
确定性策略：
$\pi(s)=a$
随机性策略：
$\pi(a | s)=\operatorname{Pr}\left(a_{t}=a | s_{t}=s\right)$

价值

价值函数$V^\pi$：特定政策$\pi $下期望折扣奖励
$V^{\pi}\left(s_{t}=s\right)=\mathbb{E}_{\pi}\left[r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+\gamma^{3} r_{t+3}+\cdots | s_{t}=s\right]$
折扣因子权衡即时和未来的奖励
可用于量化状态和动作的优缺点
价值可以用于比较策略来决定如何采取行动

RL智能体的类型

基于模型
不基于模型

更具体的图示如下：

表格的结果如下：

文章作者: Doraemonzzz

文章链接: http://www.doraemonzzz.com/2019/11/16/CS234%20Lecture%201/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz！

CS234 Reinforcement Learning

评论

ValineLivere

本地搜索