CS229 Lesson 20 策略搜索
课程视频地址:http://open.163.com/special/opencourse/machinelearning.html
课程主页:http://cs229.stanford.edu/
更具体的资料链接:https://www.jianshu.com/p/0a6ef31ff77a
笔记参考自中文翻译版:https://github.com/Kivy-CN/Stanford-CS-229-CN
这一讲没有找到对应笔记,这里主要回顾策略搜索。
视频里主要介绍如下内容
- 策略搜索
- Reinforced
- Pegasus
后面两个内容的PPT没有找到,所以这里主要介绍策略搜索。
策略搜索
定义集合$\Pi$为策略集合,我们的目标是找到好的$\pi \in \Pi$。
随机策略是如下函数
其中$\pi(s,a)$是在状态$s$采取行动$a$的概率,因此
考虑倒立摆的例子,$\phi$表示摆和竖直方向的夹角,行动$a_1$表示向右加速,行动$a_2$表示向左加速,定义随机策略
例如
如果有多个行动,我们可以将上述随机策略推广为
我们的目标是
不难看出,对于某个固定的初始状态
其中
对于这个优化问题,我们有如下算法:
循环{
取样$s_0,a_0,s_1,a_1,…,s_T,a_T$
计算$\text{pay off}= R(s_0,a_0)+…+ R(s_T,a_T)$
更新:
}
为了解释这个算法,我们来计算
注意到
以及
所以
所以之前的算法实际上是随机梯度上升算法。
现在,如果我们有对$s$的近似$\hat s$(例如可以利用卡尔曼滤波器计算出$\hat s =s_{t|t}$),然后计算随机策略
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere