David silver 强化学习 Lecture 7

距离上次更新已经 1792 天了，文章内容可能已经过时。

课程主页： https://www.davidsilver.uk/teaching/

这里回顾David silver 强化学习 Lecture 7的课程内容，这一讲简单介绍了策略梯度算法。

上一讲介绍了如何使用参数 $θ$ 近似价值函数：

\begin{aligned} V_{θ} (s) & \approx V^{π} (s) \\ Q_{θ} (s, a) & \approx Q^{π} (s, a) \end{aligned}

然后从价值函数中推导策略。

这一讲将直接近似策略：

π_{θ} (s, a) = P [a | s, θ]

这一讲的重点仍然是不基于模型的强化学习。

Policy Objective Functions

我们要找到好的策略 $π_{θ} (s, a)$ ，就需要一个判断好坏的损失函数：

在离散环境，我们可以使用初始价值
$J_{1} (θ) = V^{π_{θ}} (s_{1}) = E_{π_{θ}} [v_{1}]$
在连续环境中，我们可以使用平均价值
$J_{a v V} (θ) = \sum_{s} d^{π_{θ}} (s) V^{π_{θ}} (s)$
或者每个时间戳的平均回报
$J_{a v R} (θ) = \sum_{s} d^{π_{θ}} (s) \sum_{a} π_{θ} (s, a) R_{s}^{a}$
其中 $d^{π_{θ}} (s)$ 是马尔可夫链关于 $π_{θ}$ 的平稳分布

后续将损失函数统一记录为 $J (θ)$ 。

Policy Gradient

利用梯度上升算法可以最大化 $J (θ)$ ，每一步的变换量为

Δ θ = α \nabla_{θ} J (θ)

其中 $\nabla_{θ} J (θ)$ 为策略梯度，计算式为

\nabla_{θ} J (θ) = (\begin{matrix} \frac{\partial J (θ)}{\partial θ_{1}} \\ ⋮ \\ \frac{\partial J (θ)}{\partial θ_{n}} \end{matrix})

$α$ 是步长参数。

Score Function

现在解析的计算 $\nabla_{θ} π_{θ} (s, a)$ ，我们有

\begin{aligned} \nabla_{θ} π_{θ} (s, a) & = π_{θ} (s, a) \frac{\nabla_{θ} π_{θ} (s, a)}{π_{θ} (s, a)} \\ = π_{θ} (s, a) \nabla_{θ} \log π_{θ} (s, a) \end{aligned}

我们称 $\nabla_{θ} \log π_{θ} (s, a)$ 为得分函数。

后续介绍两种常见的策略形式：

Softmax Policy

π_{θ} (s, a) = \frac{e^{ϕ (s, a)^{⊤} θ}}{\sum_{a^{'}} e^{ϕ (s, a^{'})^{⊤} θ}} \propto e^{ϕ (s, a)^{⊤} θ}

所以

\begin{aligned} \nabla_{θ} \log π_{θ} (s, a) & = \nabla_{θ} (ϕ (s, a)^{⊤} θ - \log \sum_{a^{'}} e^{ϕ (s, a^{'})^{⊤} θ}) \\ = ϕ (s, a) - \sum_{a^{″}} \frac{e^{ϕ (s, a^{″})^{⊤} θ}}{\sum_{a^{'}} e^{ϕ (s, a^{'})^{⊤} θ}} ϕ (s, a^{″}) \\ = ϕ (s, a) - E_{π_{θ}} [ϕ (s, \cdot)] \end{aligned}

Gaussian Policy

一个高斯策略为， $a \sim N (μ (s), σ^{2})$ ，其中 $μ (s) = ϕ (s)^{⊤} θ$ ， $σ^{2}$ 为常数，那么

\begin{aligned} \nabla_{θ} \log π_{θ} (s, a) & = \nabla_{θ} \log (\frac{1}{2 σ^{2}} \exp (- \frac{(a - μ (s))^{2}}{2 σ^{2}})) \\ = \nabla_{θ} (- \frac{(a - μ (s))^{2}}{2 σ^{2}}) \\ = \frac{(a - μ (s))}{σ^{2}} \nabla_{θ} μ (s) \\ = \frac{(a - μ (s)) ϕ (s)}{σ^{2}} \end{aligned}

Policy Gradient Theorem

对于任意可微的策略 $π_{θ} (s, a)$ ，对于之前介绍的三个策略目标函数 $J = J_{1}, J_{a v R}, \frac{1}{1 - γ} J_{a v} v$ ，策略梯度为

\nabla_{θ} J (θ) = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) Q^{π_{θ}} (s, a)]

Monte-Carlo Policy Gradient (REINFORCE)

将上述内容总结即可得到REINFORCE算法：

Reducing Variance Using a Critic

上述算法有很高的方差，我们可以使用critic来估计动作价值函数来减少方差：

Q_{w} (s, a) \approx Q^{π_{θ}} (s, a)

Actor-critic算法保留两个集合的参数：

Critic：更新动作-价值函数的参数 $w$
Actor：根据critic的建议更新策略参数 $θ$

Actor-critic算法使用下式来近似策略梯度：

\begin{aligned} \nabla_{θ} J (θ) & \approx E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) Q_{w} (s, a)] \\ Δ θ & = α \nabla_{θ} \log π_{θ} (s, a) Q_{w} (s, a) \end{aligned}

Action-Value Actor-Critic

我们使用之前介绍的 $TD (0)$ 算法优化Critic，结合本讲的内容得到QAC算法：

Compatible Function Approximation

定理（Compatible Function Approximation）

如果如下两个条件满足：

价值函数的近似函数满足
$\nabla_{w} Q_{w} (s, a) = \nabla_{θ} \log π_{θ} (s, a)$
价值函数的参数 $w$ 最小化均方误差
$ε = E_{π_{θ}} [{(Q^{π_{θ}} (s, a) - Q_{w} (s, a))}^{2}]$

那么策略梯度是准确的，

\nabla_{θ} J (θ) = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) Q_{w} (s, a)]

证明：

\begin{aligned} \nabla_{w} ε & = 0 \\ E_{π_{θ}} [(Q^{θ} (s, a) - Q_{w} (s, a)) \nabla_{w} Q_{w} (s, a)] & = 0 \\ E_{π_{θ}} [(Q^{θ} (s, a) - Q_{w} (s, a)) \nabla_{θ} \log π_{θ} (s, a)] & = 0 \\ E_{π_{θ}} [Q^{θ} (s, a) \nabla_{θ} \log π_{θ} (s, a)] & = E_{π_{θ}} [Q_{w} (s, a) \nabla_{θ} \log π_{θ} (s, a)] \end{aligned}

Reducing Variance Using a Baseline

我们可以通过减去baseline函数 $B (s)$ 来减少方差，并且这样不会改变梯度：

\begin{aligned} E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) B (s)] & = \sum_{s \in S} d^{π_{θ}} (s) \sum_{a} \nabla_{θ} π_{θ} (s, a) B (s) \\ = \sum_{s \in S} d^{π_{θ}} B (s) \nabla_{θ} \sum_{a \in A} π_{θ} (s, a) \\ = 0 \end{aligned}

一个好的baseline是

B (s) = V^{π_{θ}} (s)

所以我们可以用advantage function $A^{π_{θ}} (s, a)$ 重写策略梯度

\begin{aligned} A^{π_{θ}} (s, a) & = Q^{π_{θ}} (s, a) - V^{π_{θ}} (s) \\ \nabla_{θ} J (θ) & = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) A^{π_{θ}} (s, a)] \end{aligned}

Natural Policy Gradient

Natural Policy Gradient与参数设置无关，当以较小的固定量更改策略时，它会找到最接近原始梯度的上升方向

\nabla_{θ}^{nat} π_{θ} (s, a) = G_{θ}^{- 1} \nabla_{θ} π_{θ} (s, a)

其中 $G_{θ}$ 是Fisher信息矩阵

G_{θ} = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) \nabla_{θ} \log π_{θ} (s, a)^{T}]

利用compatible function approximation，我们要选择满足如下条件的 $A$

\nabla_{w} A_{w} (s, a) = \nabla_{θ} \log π_{θ} (s, a)

显然这里可以取

A^{π_{θ}} (s, a) = \nabla_{θ} \log π_{θ} (s, a)^{T} w

所以

\begin{aligned} \nabla_{θ} J (θ) & = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) A^{π_{θ}} (s, a)] \\ = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) \nabla_{θ} \log π_{θ} (s, a)^{T} w] \\ = G_{θ} w \\ \nabla_{θ}^{nat} J (θ) & = w \end{aligned}

即根据critic参数更新actor参数。

Summary of Policy Gradient Algorithms

policy gradient有很多等价形式

\begin{aligned} \nabla_{θ} J (θ) & = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) v_{t}] & REINFORCE \\ = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) Q^{w} (s, a)] & Q Actor-Critic \\ = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) A^{w} (s, a)] & Advantage Actor-Critic \\ = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) δ] & TD Actor-Critic \\ = E_{π_{θ}} [\nabla_{θ} \log π_{θ} (s, a) δ e] & TD (λ) Actor-Critic \\ G_{θ}^{- 1} \nabla_{θ} J (θ) & = w & Natural Actor-Critic \end{aligned}

Critic使用策略评估（例如MC或者TD）来估计 $Q^{π} (s, a), A^{π} (s, a) or V^{π} (s)$

Policy Objective Functions

Policy Gradient

Score Function

Softmax Policy

Gaussian Policy

Policy Gradient Theorem

Monte-Carlo Policy Gradient (REINFORCE)

Reducing Variance Using a Critic

Action-Value Actor-Critic

Compatible Function Approximation

Reducing Variance Using a Baseline

Natural Policy Gradient

Summary of Policy Gradient Algorithms

微信扫一扫：分享