课程主页: http://web.stanford.edu/class/cs234/index.html

由于实习的原因,需要补充RL方面的知识,目前找了两份资料,一个David Silver的课程,另一个是CS234,这部分是对CS234的整理,第一讲的主题是Introduction to RL。

序列决策过程

考虑序列决策过程,其模式如下

  • 在每个时间戳$t$:

    • 智能体采取行动$a_t$
    • 环境根据$a_t$进行更新,给出观测值$o_t$和奖励$r_t$
    • 智能体得到观测值$o_t$和奖励$r_t$
  • 由此不难得到历史$h_{t}=\left(a_{1}, o_{1}, r_{1}, \ldots, a_{t}, o_{t}, r_{t}\right)$

  • 智能体根据历史选择行动
  • 状态是决定下一步会发生什么的信息:$s_t= f(h_t)$

马尔可夫假设

状态$s_t$具有马尔可夫性当且仅当:

即状态信息是历史的充分统计量。

实际中通常取$s_t= o_t$

RL算法元素

RL算法是处理序列决策过程的算法,通常包括如下元素:

  • 模型:代表环境如何响应智能体的行为而变化
  • 策略:将智能体的状态映射到动作的函数
  • 价值函数:遵循特定策略时,处于某状态和/或行动所带来的未来回报
模型
  • 模型描述了环境如何响应智能体的行动而产生的变化

  • 动态模型预测了智能体的下一步状态

  • 价值模型预测了即时奖励

策略
  • 策略$\pi$决定了智能体如何采取行动

  • $\pi: S \rightarrow A$,即策略将状态映射到行动

  • 确定性策略:

  • 随机性策略:

价值
  • 价值函数$V^\pi$:特定政策$\pi $下期望折扣奖励

  • 折扣因子权衡即时和未来的奖励

  • 可用于量化状态和动作的优缺点

  • 价值可以用于比较策略来决定如何采取行动

RL智能体的类型

  • 基于模型
  • 不基于模型

更具体的图示如下:

表格的结果如下: