David silver 强化学习 Lecture 2
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture2 的课程内容,这一讲简单介绍了马尔可夫决策过程。
马尔可夫过程
马尔可夫性
定义
状态$S_t$有马尔可夫性当且仅当
- 状态从历史中捕获所有相关信息
- 一旦知道状态后,历史可以被丢弃
- 状态是未来的充分统计量
状态转移矩阵
对于马尔可夫状态$s$和后继状态$s’$,状态转移概率被定义为
状态转移矩阵$\mathcal P$定义了从所有状态$s$到后继状态$s’$的概率,
不难看出该矩阵每行的和为$1$。
马尔可夫过程
马尔可夫过程是无记忆的随机过程,即一系列具有马尔可夫性的随机状态$\mathcal S_1,\mathcal S_2,\ldots$。
定义
马尔可夫过程(马尔可夫链)是元组$\langle\mathcal{S}, \mathcal{P}\rangle$
$\mathcal S$是(有限)状态集合
$\mathcal P$是状态转移概率矩阵:
一个具体例子如下:
马尔可夫奖励过程
定义
马尔可夫奖励过程是元组$\langle\mathcal{S}, \mathcal{P}, \mathcal{R}, \gamma\rangle$
$\mathcal S$是(有限)状态集合
$\mathcal P$是状态转移概率矩阵:
$\mathcal R$是奖励函数,$\mathcal{R}_{s}=\mathbb{E}\left[R_{t+1} | S_{t}=s\right]$
$\gamma$是折扣因子,$\gamma \in[0,1]$
一个具体例子如下:
Return
定义
return $G_t$是从时间$t$开始的总折扣奖励:
为什么需要折扣因子
大多数马尔可夫奖励和决策过程都有折扣因子。 为什么?
- 数学上方便处理折扣奖励
- 避免循环马尔可夫过程中的无限回报
- 关于未来的不确定性可能无法完全体现
- 如果奖励是经济奖励,则即时奖励可能比延迟奖励赚取更多的利息
- 动物/人类行为显示出对即时奖励的偏好
- 有时可能会使用未折扣的马尔可夫奖励过程(即$\gamma =1$)
价值函数
价值函数$v(s)$给出状态$s$的长期价值
定义
MRP的状态价值函数$v(s)$是从状态$s$出发的return期望
贝尔曼方程
由价值函数的定义,不难得到
上述等式表示价值函数可以被分解为两部分:
- 即时奖励$R_{t+1}$
- 后继状态的折扣奖励$\gamma v\left(S_{t+1}\right)$
利用状态转移矩阵,不难将上述方程改写为
上述方程组被称为贝尔曼方程。
矩阵形式的贝尔曼方程
利用矩阵符号,很容易将贝尔曼方程改写为矩阵形式:
即
马尔可夫决策过程
马尔可夫决策过程(MDP)是具有决策的马尔可夫奖励过程,环境中的所有状态都具有马尔可夫性。
定义
马尔可夫决策过程是元组$\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$
$\mathcal S$是(有限)状态集合
$\mathcal A$是有限动作集合
$\mathcal P$是状态转移概率矩阵:
$\mathcal R$是奖励函数,$\mathcal{R}_{s}^a=\mathbb{E}\left[R_{t+1} | S_{t}=s,A_t =a\right]$
$\gamma$是折扣因子,$\gamma \in[0,1]$
策略
定义
策略$\pi$是动作关于状态的条件分布:
策略完全定义了智能体的行动
MDP策略依赖于当前状态(不是历史)
给定MDP $\mathcal{M}=\langle\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma\rangle$以及策略$\pi$
状态序列$ S_1, S_2\ldots$是马尔可夫过程$\left\langle\mathcal{S}, \mathcal{P}^{\pi}\right\rangle$
状态和奖励序列$S_{1}, R_{2}, S_{2}, \ldots$是马尔可夫奖励过程$\left\langle\mathcal{S}, \mathcal{P}^{\pi}, \mathcal{R}^{\pi}, \gamma\right\rangle$
其中
价值函数
定义
MDP的状态价值函数$v_\pi(s)$是从状态$s$出发,按照策略$\pi $的期望return:
定义
动作价值函数$q_{\pi}(s, a)$是从状态$s$出发,采取动作$a$,然后按照策略$\pi $的期望return:
贝尔曼方程
类似前一部分,不难得到状态价值函数以及动作价值函数的贝尔曼方程:
另一方面,利用两者的关系,我们有:
将上述等式再次代入可以得到新的等式:
贝尔曼方程的矩阵形式
回顾方程
将其表示为矩阵形式可得
直接求解得到
最优价值函数
定义
最优状态价值函数$v_\star (s)$是关于所有策略的最大值
最优动作价值函数$q_\star(s, a)$是动作-价值函数关于所有策略的最大值
- 最优价值函数指定了MDP中可能的最佳性能。
- 当我们知道最优值时,可以说MDP“已解决”。
最优策略
在策略上定义偏序
定理
对于任意马尔可夫决策过程
- 存在不比其他策略差的最优策略$\pi_\star$,即$\pi_{*} \geq \pi, \forall \pi$
- 所有最优策略达到最优价值函数,$v_{\pi_{}}(s)=v_{}(s)$
- 所有最优策略达到最优动作价值函数,$q_{\pi_{}}(s, a)=q_{}(s, a)$
找到最优策略
最优策略可以通过最大化$q_{*}(s, a)$来求解,
- 任何MDP始终都有确定性的最佳策略
- 如果我们知道$q_{\star}(s, a)$,我们将立即获得最优策略
$v_\star,q_\star$的贝尔曼方程
最优价值函数通过Bellman最佳方程递归相关:
求解贝尔曼最优方程
- 贝尔曼最优方程是非线性的
- 没有封闭解(通常)
- 许多迭代求解方法
- 价值迭代
- 策略迭代
- Q-learning
- Sarsa
MDP的拓展
- 无限和连续的MDP
- 部分可观察的MDP
- 未折现的,平均奖励MDP