课程主页: https://www.davidsilver.uk/teaching/

这里回顾David silver 强化学习 Lecture 1的课程内容,这一讲简单介绍了强化学习。

强化学习的特点

强化学习是机器学习的一个分支,它和监督学习以及非监督学习的关系如下:

强化学习两个重要元素为智能体和环境,它和机器学习的其他分支最明显的区别为:

  • 没有监督,只有奖励信号
  • 反馈是延迟的,不是即时的
  • 时间很重要(即数据为序列,非独立同分布的)
  • 智能体的动作影响其收到的后续数据

强化学习问题

奖励
  • 奖励$R_t$是标量反馈信号
  • 表示智能体在步骤$t$的表现
  • 智能体的工作是使累积奖励最大化

强化学习基于奖励假设,下面给出正式定义:

定义(奖励假设)

所有目标都可以通过累积奖励的期望最大化来描述。

序列决策
  • 目标:选择可最大化未来总回报的行动
  • 行动可能会带来长期结果
  • 奖励可能会延迟
  • 牺牲即时奖励以获得更多长期奖励可能更好
环境

环境是强化学习的一个重要概念,其和智能体的交互关系可以用下图表示:

  • 在每个步骤$t$,智能体:
    • 执行动作$A_t$
    • 接受观测值$O_t$
    • 收到标量奖励$R_t$
  • 环境:
    • 接受动作$A_t$
    • 产生观测值$O_{t+1}$
    • 产生标量奖励$R_{t+1}$
  • $t$在环境处增加。
状态
历史和状态
  • 历史是观测值,动作,奖励的序列:

  • 即直到时间$t$的可观测变量

  • 下一步发生什么依赖于历史:

    • 智能体选择行动
    • 环境选择观测值/奖励
  • 状态是决定下一步发什么的信息

  • 形式上,状态是历史的函数:

环境状态

  • 环境状态$S_t^e$是环境的私有表示
  • 即环境用来选择下一个观测值/奖励的任何数据
  • 智能体通常通看不到环境状态
  • 即使可见,环境状态也可能包含不相关的信息
智能体状态

  • 智能体状态$S^a_t$是智能体的内部表示

  • 即智能体用来选择下一步操作的任何信息

  • 即它是强化学习算法使用的信息

  • 它可以是历史的任何函数:

信息状态

信息状态(又称马尔可夫状态)包含历史记录中的所有有用信息。

马尔可夫性的定义如下:

定义

状态$S_t$满足马尔可夫性当且仅当

完全可观测的环境

完全可观测:智能体直接观察环境状态

  • 智能体状态=环境
    状态=信息状态
  • 正式地,这是一个马尔可夫决策过程(MDP)
部分可观测的状态
  • 部分可观测性:智能体间接观察环境。
  • 智能体的当前状态$\neq $环境状态
  • 智能体必须构造自己的状态表示$S_t^a$
RL智能体

RL智能体包括一个或多个以下元素:

  • 策略:智能体的行为函数
  • 价值函数:描述每个状态和/或动作有多好
  • 模型:智能体对环境的表示
策略
  • 策略是智能体的行动
  • 这是从状态到行动的映射,例如
    • 确定性策略:$a=\pi(s)$
    • 随机策略:$\pi(a | s)=\mathbb{P}\left[A_{t}=a | S_{t}=s\right] $
价值函数
  • 价值函数是对未来回报的预测

  • 用于评估状态的优缺点

  • 因此要在动作之间进行选择,例如

模型
  • 模型可以预测环境下一步将做什么

  • $\mathcal P$预测下一个状态

  • $\mathcal R$预测下一个(即时)奖励,例如

对RL智能体分类

学习和规划

学习和规划是序列决策问题里两个基本问题:

  • 强化学习:

    • 最初环境未知
    • 智能体与环境互动
    • 智能体改善策略
  • 规划:

    • 环境模型是已知的
    • 智能体使用其模型执行计算(无任何外部互动)
    • 智能体改善政策
    • 又名思考,推理,搜索
探索与开发
  • 强化学习就像试错学习
  • 智能体应该在一路上不损失太多奖励的前提下,从其环境经验发现一个好的策略
  • 探索发现和有关环境的更多信息
  • 开发利用已知信息来最大化回报
  • 探索和开发通常都很重要
预测和控制
  • 预测:给定策略,评估未来
  • 控制:找到最优策略来优化未来