CS229 Lesson 20 策略搜索

课程视频地址:http://open.163.com/special/opencourse/machinelearning.html

课程主页:http://cs229.stanford.edu/

更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a

笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN

这一讲没有找到对应笔记,这里主要回顾策略搜索。

视频里主要介绍如下内容

  • 策略搜索
  • Reinforced
  • Pegasus

后面两个内容的PPT没有找到,所以这里主要介绍策略搜索。

策略搜索

定义集合$\Pi$为策略集合,我们的目标是找到好的$\pi \in \Pi$。

随机策略是如下函数

其中$\pi(s,a)$是在状态$s$采取行动$a$的概率,因此

考虑倒立摆的例子,$\phi$表示摆和竖直方向的夹角,行动$a_1$表示向右加速,行动$a_2$表示向左加速,定义随机策略

例如

如果有多个行动,我们可以将上述随机策略推广为

我们的目标是

不难看出,对于某个固定的初始状态

其中

对于这个优化问题,我们有如下算法:

  • 循环{

    • 取样$s_0,a_0,s_1,a_1,…,s_T,a_T$

    • 计算$\text{pay off}= R(s_0,a_0)+…+ R(s_T,a_T)$

    • 更新:

    }

为了解释这个算法,我们来计算

注意到

以及

所以

所以之前的算法实际上是随机梯度上升算法。

现在,如果我们有对$s​$的近似$\hat s​$(例如可以利用卡尔曼滤波器计算出$\hat s =s_{t|t}​$),然后计算随机策略

本文标题:CS229 Lesson 20 策略搜索

文章作者:Doraemonzzz

发布时间:2019年01月27日 - 14:15:00

最后更新:2019年03月28日 - 15:10:48

原始链接:http://doraemonzzz.com/2019/01/27/CS229 Lesson 20 策略搜索/

许可协议: 署名-非商业性使用-禁止演绎 4.0 国际 转载请保留原文链接及作者。