CS234 Lecture 1
课程主页: http://web.stanford.edu/class/cs234/index.html
由于实习的原因,需要补充RL方面的知识,目前找了两份资料,一个David Silver的课程,另一个是CS234,这部分是对CS234的整理,第一讲的主题是Introduction to RL。
序列决策过程
考虑序列决策过程,其模式如下
在每个时间戳$t$:
- 智能体采取行动$a_t$
- 环境根据$a_t$进行更新,给出观测值$o_t$和奖励$r_t$
- 智能体得到观测值$o_t$和奖励$r_t$
由此不难得到历史$h_{t}=\left(a_{1}, o_{1}, r_{1}, \ldots, a_{t}, o_{t}, r_{t}\right)$
- 智能体根据历史选择行动
- 状态是决定下一步会发生什么的信息:$s_t= f(h_t)$
马尔可夫假设
状态$s_t$具有马尔可夫性当且仅当:
即状态信息是历史的充分统计量。
实际中通常取$s_t= o_t$
RL算法元素
RL算法是处理序列决策过程的算法,通常包括如下元素:
- 模型:代表环境如何响应智能体的行为而变化
- 策略:将智能体的状态映射到动作的函数
- 价值函数:遵循特定策略时,处于某状态和/或行动所带来的未来回报
模型
模型描述了环境如何响应智能体的行动而产生的变化
动态模型预测了智能体的下一步状态
价值模型预测了即时奖励
策略
策略$\pi$决定了智能体如何采取行动
$\pi: S \rightarrow A$,即策略将状态映射到行动
确定性策略:
随机性策略:
价值
价值函数$V^\pi$:特定政策$\pi $下期望折扣奖励
折扣因子权衡即时和未来的奖励
可用于量化状态和动作的优缺点
价值可以用于比较策略来决定如何采取行动
RL智能体的类型
- 基于模型
- 不基于模型
更具体的图示如下:
表格的结果如下:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere