CS231 第十四讲深度强化学习

课程视频地址：https://study.163.com/courses-search?keyword=CS231

课程主页：http://cs231n.stanford.edu/2017/

这一讲介绍了深度强化学习。

参考资料：https://www.cnblogs.com/coldyan/p/9034192.html

强化学习

强化学习解决智能体（agent）与环境（environment）交互的问题，过程如下：

图中的过程描述如下：智能体在状态$s_t$采取行动$a_t$，环境反馈奖励$r_t$，智能体转移到下一个状态$s_{t+1}$。

这么说比较抽象，来看两个具体例子：

马尔可夫决策过程

现在我们要对强化学习进行建模，这里利用经典的马尔可夫决策过程来进行建模，定义为

$(\mathcal S, \mathcal A,\mathcal R,\mathbb P, \gamma)$

其中

$\begin{aligned} \mathcal S&:可能的状态\\ \mathcal A&:可能的行动\\ \mathcal R&:给定（行动，状态）的奖励的分布\\ \mathbb P&:转移概率，下一状态关于给定（状态，动作）对的分布\\ \gamma&:折扣因子 \end{aligned}$

马尔可夫决策过程的运行步骤如下：

策略$\pi $是从$S$到$A$的函数，它指定在每个状态中要采取的动作，我们的目标是找到最大化折扣奖励$\sum_{t\ge 0}\gamma^t r_t$的策略$\pi^*$，正式的表达式为

$\pi^* = \arg\max_{\pi} \mathbb E\Big[ \sum_{t\ge 0}\gamma^t r_t |\pi \Big]\\ s_0 \sim p(s_0), a_t \sim \pi(.|s_t), s_{t+1} \sim p(.|s_t,a_t)$

来看一个简单的例子，如下图所示：

我们的目标是用最少的步数走到灰色区域，随机策略和最优策略如下：

价值函数和Q-值函数

价值函数和Q-值函数是评估状态以及状态-行动对好坏的函数，定义如下：

状态$s$的价值函数是从状态$s$开始，遵循策略的累计奖励的期望：

$V^{\pi} (s) =\mathbb E\Big[ \sum_{t\ge 0}\gamma^t r_t |s_0=s,\pi \Big]$

状态$s$和行动$a$的Q-值函数为在状态$s$采取行动$a$然后遵循策略的累计奖励的期望：

$Q^{\pi} (s,a) =\mathbb E\Big[ \sum_{t\ge 0}\gamma^t r_t |s_0=s,a_0=a,\pi \Big]$

贝尔曼方程

按如下方式定义最优Q-值函数$Q^* $：

$Q^{*} (s,a) =\max_{\pi}\mathbb E\Big[ \sum_{t\ge 0}\gamma^t r_t |s_0=s,a_0=a,\pi \Big]$

$Q^* $满足贝尔曼方程：

$Q^{*} (s,a)= \mathbb E_{s'\sim \mathcal E}\Big[ r+\gamma \max_{a'}Q^{*} (s',a') |s,a \Big]$

Q-learning

一般求解$Q^* $的方式为值迭代：

$Q_{i+1}(s,a)=\mathbb E\Big[ r+\gamma \max_{a'}Q_i (s',a') |s,a \Big]$

但是这个方法不具有可扩展性，因为每次要遍历每个状态-行动对。一个简单的思路是用函数近似估计$Q(s,a)$，于是就产生了Q-learning算法。

Q-learning：使用函数逼近来估计动作-价值函数

$Q(s,a;\theta) \approx Q^* (s,a)$

如果我们的近似函数为深度神经网络，那么就会产生深度Q-learning，于是我们的算法如下：

来看一个网络架构：

上图中的输入为游戏每隔几帧的游戏画面。

注意到在实际中，上述算法的效果不太好，这是因为

样本的相关性太高，这会导致不高效的学习。
当前的Q-网络参数确定下一个训练样本（例如，如果最大化动作是向左移动，训练样本将由来自左边），这可能导致错误的反馈循环.

解决的方法是experience replay，具体做法如下

当我们在运行游戏时，不断将元组$(s_t,a_t,r_t,s_{t+1})$存入replay memory。
从replay memory抽取随机小批量样本来训练Q网络。

最终算法如下：

策略梯度

Q-learning的一个问题是Q-function可能非常复杂，与之对应的是策略可能非常简单，所以现在的目标是直接学习策略。

正式的，让我们定义一类参数化策略：

$\Pi = \{\pi_{\theta}, \theta\in \mathbb R^m\}$

对每个策略，定义其价值

$J(\theta)= \mathbb E\Big[ \sum_{t\ge 0}\gamma^t r_t |\pi_{\theta} \Big]$

我们现在想找到最优策略，即

$\theta^* =\arg \max J(\theta)$

这里采取的方式为关于策略参数采取梯度上升算法，注意到

$\begin{aligned} J(\theta)&= \mathbb E_{\tau \sim p(\tau;\theta)} \Big[r(\tau)\Big] \\ &=\int_{\tau}r(\tau) p(\tau;\theta) d\tau \end{aligned}$

求梯度可得

$\nabla_{\theta}J(\theta) =\int_{\tau}r(\tau) \nabla_{\theta}p(\tau;\theta) d\tau$

注意到

$\nabla_{\theta}p(\tau;\theta) =p(\tau;\theta) \frac{\nabla_{\theta}p(\tau;\theta)}{p(\tau;\theta)} =p(\tau;\theta)\nabla_{\theta}\log p(\tau;\theta)$

因此

$\begin{aligned} \nabla_{\theta}J(\theta) &=\int_{\tau}(r(\tau)\nabla_{\theta}\log p(\tau;\theta))p(\tau;\theta) d\tau \\ &=\mathbb E_{\tau \sim p(\tau;\theta)} \Big[r(\tau)\nabla_{\theta}\log p(\tau;\theta)\Big] \end{aligned}$

注意到

$p(\tau;\theta) = \prod_{t\ge 0} p(s_{t+1}|s_t,a_t)\pi _{\theta}(a_t|s_t)$

所以

$\log p(\tau;\theta) = \sum_{t\ge 0}\log p(s_{t+1}|s_t,a_t)+\log \pi _{\theta}(a_t|s_t) \\ \nabla_{\theta}\log p(\tau;\theta) =\sum_{t\ge 0}\nabla_{\theta} \log \pi _{\theta}(a_t|s_t)$

因此我们可以通过取样估计$\nabla_{\theta}J(\theta)$：

$\nabla_{\theta}J(\theta) \approx \sum_{t\ge 0} r(\tau ) \nabla_{\theta} \log \pi _{\theta}(a_t|s_t)$

实际中，上述方法的方差很大，更好的方法如下：

通过累积某状态之后的未来奖励来增加某个行动的概率
$\nabla_{\theta}J(\theta) \approx \sum_{t\ge 0} \Big(\sum_{t'\ge t} r_{t'} \Big) \nabla_{\theta} \log \pi _{\theta}(a_t|s_t)$
使用折扣因子$\gamma$来忽略延迟效应
$\nabla_{\theta}J(\theta) \approx \sum_{t\ge 0} \Big(\sum_{t'\ge t}\gamma^{t'-t} r_{t'} \Big) \nabla_{\theta} \log \pi _{\theta}(a_t|s_t)$

实际中，我们关注的是奖励是否比我们期望的更好或更差，所以引入依赖状态的baseline函数：

$\nabla_{\theta}J(\theta) \approx \sum_{t\ge 0} \Big(\sum_{t'\ge t}\gamma^{t'-t} r_{t'} -b(s_t) \Big) \nabla_{\theta} \log \pi _{\theta}(a_t|s_t)$

$\sum_{t’\ge t}\gamma^{t’-t} r_{t’} -b(s_t)$让我们联想到Q-函数和价值函数，所以算法修改为

$\nabla_{\theta}J(\theta) \approx \sum_{t\ge 0} \Big(Q^{\pi_{\theta}}(s_t,a_t)-V^{\pi_{\theta}}(s_t) \Big) \nabla_{\theta} \log \pi _{\theta}(a_t|s_t)$

实际中，$Q,V$都不知道，所以我们结合策略梯度和Q-learning，得到Actor-Critic算法“