课程视频地址:http://open.163.com/special/opencourse/machinelearning.html

课程主页:http://cs229.stanford.edu/

更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a

笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN

这一讲没有找到对应笔记,这里主要回顾策略搜索。

视频里主要介绍如下内容

  • 策略搜索
  • Reinforced
  • Pegasus

后面两个内容的PPT没有找到,所以这里主要介绍策略搜索。

策略搜索

定义集合$\Pi$为策略集合,我们的目标是找到好的$\pi \in \Pi$。

随机策略是如下函数

其中$\pi(s,a)$是在状态$s$采取行动$a$的概率,因此

考虑倒立摆的例子,$\phi$表示摆和竖直方向的夹角,行动$a_1$表示向右加速,行动$a_2$表示向左加速,定义随机策略

例如

如果有多个行动,我们可以将上述随机策略推广为

我们的目标是

不难看出,对于某个固定的初始状态

其中

对于这个优化问题,我们有如下算法:

  • 循环{

    • 取样$s_0,a_0,s_1,a_1,…,s_T,a_T$

    • 计算$\text{pay off}= R(s_0,a_0)+…+ R(s_T,a_T)$

    • 更新:

    }

为了解释这个算法,我们来计算

注意到

以及

所以

所以之前的算法实际上是随机梯度上升算法。

现在,如果我们有对$s​$的近似$\hat s​$(例如可以利用卡尔曼滤波器计算出$\hat s =s_{t|t}​$),然后计算随机策略