David silver 强化学习 Lecture 1

课程主页： https://www.davidsilver.uk/teaching/

这里回顾David silver 强化学习 Lecture 1的课程内容，这一讲简单介绍了强化学习。

强化学习的特点

强化学习是机器学习的一个分支，它和监督学习以及非监督学习的关系如下：

强化学习两个重要元素为智能体和环境，它和机器学习的其他分支最明显的区别为：

没有监督，只有奖励信号
反馈是延迟的，不是即时的
时间很重要（即数据为序列，非独立同分布的）
智能体的动作影响其收到的后续数据

强化学习问题

奖励

奖励$R_t$是标量反馈信号
表示智能体在步骤$t$的表现
智能体的工作是使累积奖励最大化

强化学习基于奖励假设，下面给出正式定义：

定义（奖励假设）

所有目标都可以通过累积奖励的期望最大化来描述。

序列决策

目标：选择可最大化未来总回报的行动
行动可能会带来长期结果
奖励可能会延迟
牺牲即时奖励以获得更多长期奖励可能更好

环境

环境是强化学习的一个重要概念，其和智能体的交互关系可以用下图表示：

在每个步骤$t$，智能体：
- 执行动作$A_t$
- 接受观测值$O_t$
- 收到标量奖励$R_t$
环境：
- 接受动作$A_t$
- 产生观测值$O_{t+1}$
- 产生标量奖励$R_{t+1}$
$t$在环境处增加。

状态

历史和状态

历史是观测值，动作，奖励的序列：
$H_{t}=O_{1}, R_{1}, A_{1}, \ldots, A_{t-1}, O_{t}, R_{t}$
即直到时间$t$的可观测变量
下一步发生什么依赖于历史：
- 智能体选择行动
- 环境选择观测值/奖励
状态是决定下一步发什么的信息
形式上，状态是历史的函数：
$S_t= f(H_t)$

环境状态

环境状态$S_t^e$是环境的私有表示
即环境用来选择下一个观测值/奖励的任何数据
智能体通常通看不到环境状态
即使可见，环境状态也可能包含不相关的信息

智能体状态

智能体状态$S^a_t$是智能体的内部表示
即智能体用来选择下一步操作的任何信息
即它是强化学习算法使用的信息
它可以是历史的任何函数：
$S_t^a = f(H_t)$

信息状态

信息状态（又称马尔可夫状态）包含历史记录中的所有有用信息。

马尔可夫性的定义如下：

定义

状态$S_t$满足马尔可夫性当且仅当

$\mathbb{P}\left[S_{t+1} | S_{t}\right]=\mathbb{P}\left[S_{t+1} | S_{1}, \ldots, S_{t}\right]$

完全可观测的环境

完全可观测：智能体直接观察环境状态

$O_{t}=S_{t}^{a}=S_{t}^{e}$

智能体状态=环境
状态=信息状态
正式地，这是一个马尔可夫决策过程（MDP）

部分可观测的状态

部分可观测性：智能体间接观察环境。
智能体的当前状态$\neq $环境状态
智能体必须构造自己的状态表示$S_t^a$

RL智能体

RL智能体包括一个或多个以下元素：

策略：智能体的行为函数
价值函数：描述每个状态和/或动作有多好
模型：智能体对环境的表示

策略

策略是智能体的行动
这是从状态到行动的映射，例如
- 确定性策略：$a=\pi(s)$
- 随机策略：$\pi(a | s)=\mathbb{P}\left[A_{t}=a | S_{t}=s\right] $

价值函数

价值函数是对未来回报的预测
用于评估状态的优缺点
因此要在动作之间进行选择，例如
$v_{\pi}(s)=\mathbb{E}_{\pi}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots | S_{t}=s\right]$

模型

模型可以预测环境下一步将做什么
$\mathcal P$预测下一个状态
$\mathcal R$预测下一个（即时）奖励，例如
$\begin{aligned} \mathcal{P}_{s s^{\prime}}^{a} &=\mathbb{P}\left[S_{t+1}=s^{\prime} | S_{t}=s, A_{t}=a\right] \\ \mathcal{R}_{s}^{a} &=\mathbb{E}\left[R_{t+1} | S_{t}=s, A_{t}=a\right] \end{aligned}$

对RL智能体分类

学习和规划

学习和规划是序列决策问题里两个基本问题:

强化学习：
- 最初环境未知
- 智能体与环境互动
- 智能体改善策略
规划：
- 环境模型是已知的
- 智能体使用其模型执行计算（无任何外部互动）
- 智能体改善政策
- 又名思考，推理，搜索

探索与开发

强化学习就像试错学习
智能体应该在一路上不损失太多奖励的前提下，从其环境经验发现一个好的策略
探索发现和有关环境的更多信息
开发利用已知信息来最大化回报
探索和开发通常都很重要

预测和控制

预测：给定策略，评估未来
控制：找到最优策略来优化未来