David silver 强化学习 Lecture 6

课程主页： https://www.davidsilver.uk/teaching/

这里回顾David silver 强化学习 Lecture 6的课程内容，这一讲简单介绍了价值函数的近似。

Value Function Approximation

前几节介绍的方法都是使用查表法计算价值函数，即对每个状态计算$V(s),Q(s,a)$
大型MDP中，状态太多，不太可能穷举所有状态，一个思路是使用函数近似价值函数，即
- 从可见状态到不可见状态
- 使用MC或TD学习更新参数w

Which Function Approximator?

现在要对函数近似器进行选择，由于使用梯度方法进行优化，比较好的近似器为

特征的线性组合
神经网络

其实第一种是第二种的特殊情形。

Gradient Descent

假设$J(\mathrm w)$是关于参数向量$\mathrm w$的可微函数
定义梯度为
$\nabla_{\mathbf{w}} J(\mathbf{w})=\left(\begin{array}{c} \frac{\partial J(\mathbf{w})}{\partial \mathbf{w}_{1}} \\ \vdots \\ \frac{\partial J(\mathbf{w})}{\partial \mathbf{w}_{n}} \end{array}\right)$
要找到局部最小值，$\mathrm w$的改变量为
$\Delta \mathbf{w}=-\frac{1}{2} \alpha \nabla_{\mathbf{w}} J(\mathbf{w})$
$\alpha$为步长参数

Value Function Approx. By Stochastic Gradient Descent

我们的目标是找到$\mathrm w$，使得下式达到最小值
$J(\mathbf{w})=\mathbb{E}_{\pi}\left[\left(v_{\pi}(S)-\hat{v}(S, \mathbf{w})\right)^{2}\right]$
利用梯度下降的方法可得
$\begin{aligned} \Delta \mathbf{w} &=-\frac{1}{2} \alpha \nabla_{\mathbf{w}} J(\mathbf{w}) \\ &=\alpha \mathbb{E}_{\pi}\left[\left(v_{\pi}(S)-\hat{v}(S, \mathbf{w})\right) \nabla_{\mathbf{w}} \hat{v}(S, \mathbf{w})\right] \end{aligned}$
随机梯度下降法使用（单）样本方差代替期望方差
$\Delta \mathbf{w}=\alpha\left(v_{\pi}(S)-\hat{v}(S, \mathbf{w})\right) \nabla_{\mathbf{w}} \hat{v}(S, \mathbf{w})$

Feature Vectors

使用特征向量表示状态 $\mathbf{x}(S)=\left(\begin{array}{c} \mathrm{x}_{1}(S) \\ \vdots \\ \mathrm{x}_{n}(S) \end{array}\right)$

Linear Value Function Approximation

考虑线性形式的价值函数
$\hat{v}(S, \mathbf{w})=\mathbf{x}(S)^{\top} \mathbf{w}=\sum_{j=1}^{n} \mathbf{x}_{j}(S) \mathbf{w}_{j}$
那么
$\begin{aligned} J(\mathbf{w})&=\mathbb{E}_{\pi}\left[\left(v_{\pi}(S)-\mathbf{x}(S)^{\top} \mathbf{w}\right)^{2}\right]\\ \nabla_{\mathbf{w}} \hat{v}(S, \mathbf{w}) &=\mathbf{x}(S) \\ \Delta \mathbf{w} &=\alpha\left(v_{\pi}(S)-\hat{v}(S, \mathbf{w})\right) \mathbf{x}(S) \end{aligned}$

Table Lookup Features

查表法其实是一种特殊特征产生的结果

$\mathbf{x}^{\text{table}}(S)=\left(\begin{array}{c} \mathbf{1}\left(S=s_{1}\right) \\ \vdots \\ \mathbf{1}\left(S=s_{n}\right) \end{array}\right)$

那么

$\hat{v}(S, \mathbf{w})=\left(\begin{array}{c} \mathbf{1}\left(S=s_{1}\right) \\ \vdots \\ \mathbf{1}\left(S=s_{n}\right) \end{array}\right) \cdot\left(\begin{array}{c} \mathbf{w}_{1} \\ \vdots \\ \mathbf{w}_{n} \end{array}\right)$

Incremental Prediction Algorithms

之前的方法中我们假设已知$v_{\pi}(S)$，但是实际中这并不可知，我们可以使用之前介绍的方法对$v_{\pi}(S)$进行估计

$\text{MC}$
$\Delta \mathbf{w}=\alpha\left(G_{t}-\hat{v}\left(S_{t}, \mathbf{w}\right)\right) \nabla_{\mathbf{w}} \hat{v}\left(S_{t}, \mathbf{w}\right)$
$\text{TD}(0)$
$\Delta \mathbf{w}=\alpha\left(R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}\right)-\hat{v}\left(S_{t}, \mathbf{w}\right)\right) \nabla_{\mathbf{w}} \hat{v}\left(S_{t}, \mathbf{w}\right)$
$\text{TD}(\lambda)$

前向视角
$\Delta \mathbf{w}=\alpha\left(G_{t}^{\lambda}-\hat{v}\left(S_{t}, \mathbf{w}\right)\right) \nabla_{\mathbf{w}} \hat{v}\left(S_{t}, \mathbf{w}\right)$
反向视角
$\begin{aligned} \delta_{t} &=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}\right)-\hat{v}\left(S_{t}, \mathbf{w}\right) \\ E_{t} &=\gamma \lambda E_{t-1}+\nabla_{\mathbf{w}} \hat{v}\left(S_{t}, \mathbf{w}\right) \\ \Delta \mathbf{w} &=\alpha \delta_{t} E_{t} \end{aligned}$

动作价值函数的情形类似：

$\text{MC}$
$\Delta \mathbf{w}=\alpha\left(G_{t}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)\right) \nabla_{\mathbf{w}} \hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)$
$\text{TD}(0)$
$\Delta \mathbf{w}=\alpha\left(R_{t+1}+\gamma \hat{q}\left(S_{t+1}, A_{t+1}, \mathbf{w}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)\right) \nabla_{\mathbf{w}} \hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)$
$\text{TD}(\lambda)$

前向视角
$\Delta \mathbf{w}=\alpha\left(q_{t}^{\lambda}-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)\right) \nabla_{\mathbf{w}} \hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)$
反向视角
$\begin{aligned} \delta_{t} &=R_{t+1}+\gamma \hat{q}\left(S_{t+1}, A_{t+1}, \mathbf{w}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right) \\ E_{t} &=\gamma \lambda E_{t-1}+\nabla_{\mathbf{w}} \hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right) \\ \Delta \mathbf{w} &=\alpha \delta_{t} E_{t} \end{aligned}$

Gradient Temporal-Difference Learning

$\text{TD}$并不能保证收敛，具体情况如下：

Batch Reinforcement Learning

随机梯度下降法由于一次只使用一个样本，所以训练效率不高，更好的是批量方法，这也是后续介绍的重点。

Stochastic Gradient Descent with Experience Replay

假设让智能体和环境交互，收集到数据集$\mathcal D$
$\mathcal{D}=\left\{\left\langle s_{1}, v_{1}^{\pi}\right\rangle,\left\langle s_{2}, v_{2}^{\pi}\right\rangle, \ldots,\left\langle s_{T}, v_{T}^{\pi}\right\rangle\right\}$
均方误差为
$\begin{aligned} L S(\mathbf{w}) &=\sum_{t=1}^{T}\left(v_{t}^{\pi}-\hat{v}\left(s_{t}, \mathbf{w}\right)\right)^{2} \\ &=\mathbb{E}_{\mathcal{D}}\left[\left(v^{\pi}-\hat{v}(s, \mathbf{w})\right)^{2}\right] \end{aligned}$
目标是最小化上述误差。
可以重复如下操作：
- 采样
  $\left\langle s, v^{\pi}\right\rangle \sim \mathcal{D}$
- 使用sgd
  $\Delta \mathbf{w}=\alpha\left(v^{\pi}-\hat{v}(s, \mathbf{w})\right) \nabla_{\mathbf{w}} \hat{v}(s, \mathbf{w})$
返回
$\mathbf{w}^{\pi}=\underset{\mathbf{w}}{\operatorname{argmin}} L S(\mathbf{w})$

上述方法是DQN的基础：

DQN in Atari

Atari的输入为之前4帧的像素值，整体网络架构如下：

然后利用Experience Replay方式更新：

根据$\epsilon-$贪心的策略执行动作$a_t$
将$\left(s_{t}, a_{t}, r_{t+1}, s_{t+1}\right)$存储到内存$\mathcal D$
从$\mathcal D$中采样$\left(s, a, r, s^{\prime}\right)$
关于之前固定的参数$w^-$计算Q-learning目标
最优化MSE误差
$\mathcal{L}_{i}\left(w_{i}\right)=\mathbb{E}_{s, a, r, s^{\prime} \sim \mathcal{D}_{i}}\left[\left(r+\gamma \max _{a^{\prime}} Q\left(s^{\prime}, a^{\prime} ; w_{i}^{-}\right)-Q\left(s, a ; w_{i}\right)\right)^{2}\right]$
利用sgd进行优化

Linear Least Squares Prediction

这部分介绍价值函数为线性函数的特殊情形，

$\hat{v}(s, \mathbf{w})=\mathbf{x}(s)^{\top} \mathbf{w}$

在该情形下可以直接求解：

$\begin{aligned} \mathbb{E}_{\mathcal{D}}[\Delta \mathbf{w}] &=0 \\ \alpha \sum_{t=1}^{T} \mathbf{x}\left(s_{t}\right)\left(v_{t}^{\pi}-\mathbf{x}\left(s_{t}\right)^{\top} \mathbf{w}\right) &=0 \\ \sum_{t=1}^{T} \mathbf{x}\left(s_{t}\right) v_{t}^{\pi} &=\sum_{t=1}^{T} \mathbf{x}\left(s_{t}\right) \mathbf{x}\left(s_{t}\right)^{\top} \mathbf{w} \\ \mathbf{w} &=\left(\sum_{t=1}^{T} \mathbf{x}\left(s_{t}\right) \mathbf{x}\left(s_{t}\right)^{\top}\right)^{-1} \sum_{t=1}^{T} \mathbf{x}\left(s_{t}\right) v_{t}^{\pi} \end{aligned}$

Linear Least Squares Prediction Algorithms

将对价值函数的估计加入到Linear Least得到如下公式：

LSMC：

$\begin{aligned} 0&=\sum_{t=1}^{T} \alpha\left(G_{t}-\hat{v}\left(S_{t}, \mathbf{w}\right)\right) \mathbf{x}\left(S_{t}\right) \\ \mathbf{w}&=\left(\sum_{t=1}^{T} \mathbf{x}\left(S_{t}\right) \mathbf{x}\left(S_{t}\right)^{\top}\right)^{-1} \sum_{t=1}^{T} \mathbf{x}\left(S_{t}\right) G_{t} \end{aligned}$

LSTD：

$\begin{aligned} 0&=\sum_{t=1}^{T} \alpha\left(R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}\right)-\hat{v}\left(S_{t}, \mathbf{w}\right)\right) \mathbf{x}\left(S_{t}\right) \\ \mathbf{w}&=\left(\sum_{t=1}^{T} \mathbf{x}\left(S_{t}\right)\left(\mathbf{x}\left(S_{t}\right)-\gamma \mathbf{x}\left(S_{t+1}\right)\right)^{\top}\right)^{-1} \sum_{t=1}^{T} \mathbf{x}\left(S_{t}\right) R_{t+1} \end{aligned}$

LSTD($\lambda$)：

$\begin{aligned} 0&=\sum_{t=1}^{T} \alpha \delta_{t} E_{t} \\ \delta_{t}&=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}\right)-\hat{v}\left(S_{t}, \mathbf{w}\right)\\ &=R_{t+1} +\gamma \mathrm x\left(S_{t+1}\right)^{\top} \mathrm w - \mathrm x\left(S_{t}\right)^{\top}\mathrm w\\ E_{t}&=\gamma \lambda E_{t-1}+\mathrm x\left(S_{t}\right)\\ \mathbf{w}&=\left(\sum_{t=1}^{T} E_{t}\left(\mathbf{x}\left(S_{t}\right)-\gamma \mathbf{x}\left(S_{t+1}\right)\right)^{\top}\right)^{-1} \sum_{t=1}^{T} E_{t} R_{t+1} \end{aligned}$

收敛性如下：

Least Squares Q-Learning

动作价值函数也有对应的结果，这里介绍Least Squares Q-Learning

考虑更新规则
$\begin{aligned} \delta &=R_{t+1}+\gamma \hat{q}\left(S_{t+1}, \pi\left(S_{t+1}\right), \mathbf{w}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right) \\ \Delta \mathbf{w} &=\alpha \delta \mathbf{x}\left(S_{t}, A_{t}\right) \end{aligned}$
LSTDQ为求解上式的结果
$\begin{aligned} 0&=\sum_{t=1}^{T} \alpha\left(R_{t+1}+\gamma \hat{q}\left(S_{t+1}, \pi\left(S_{t+1}\right), \mathbf{w}\right)-\hat{q}\left(S_{t}, A_{t}, \mathbf{w}\right)\right) \mathbf{x}\left(S_{t}, A_{t}\right)\\ \mathbf{w}&=\left(\sum_{t=1}^{T} \mathbf{x}\left(S_{t}, A_{t}\right)\left(\mathbf{x}\left(S_{t}, A_{t}\right)-\gamma \mathbf{x}\left(S_{t+1}, \pi\left(S_{t+1}\right)\right)\right)^{\top}\right)^{-1} \sum_{t=1}^{T} \mathbf{x}\left(S_{t}, A_{t}\right) R_{t+1} \end{aligned}$

最终得到如下算法：