David silver 强化学习 Lecture 1
课程主页: https://www.davidsilver.uk/teaching/
这里回顾David silver 强化学习 Lecture 1的课程内容,这一讲简单介绍了强化学习。
强化学习的特点
强化学习是机器学习的一个分支,它和监督学习以及非监督学习的关系如下:
强化学习两个重要元素为智能体和环境,它和机器学习的其他分支最明显的区别为:
- 没有监督,只有奖励信号
- 反馈是延迟的,不是即时的
- 时间很重要(即数据为序列,非独立同分布的)
- 智能体的动作影响其收到的后续数据
强化学习问题
奖励
- 奖励$R_t$是标量反馈信号
- 表示智能体在步骤$t$的表现
- 智能体的工作是使累积奖励最大化
强化学习基于奖励假设,下面给出正式定义:
定义(奖励假设)
所有目标都可以通过累积奖励的期望最大化来描述。
序列决策
- 目标:选择可最大化未来总回报的行动
- 行动可能会带来长期结果
- 奖励可能会延迟
- 牺牲即时奖励以获得更多长期奖励可能更好
环境
环境是强化学习的一个重要概念,其和智能体的交互关系可以用下图表示:
- 在每个步骤$t$,智能体:
- 执行动作$A_t$
- 接受观测值$O_t$
- 收到标量奖励$R_t$
- 环境:
- 接受动作$A_t$
- 产生观测值$O_{t+1}$
- 产生标量奖励$R_{t+1}$
- $t$在环境处增加。
状态
历史和状态
历史是观测值,动作,奖励的序列:
即直到时间$t$的可观测变量
下一步发生什么依赖于历史:
- 智能体选择行动
- 环境选择观测值/奖励
状态是决定下一步发什么的信息
形式上,状态是历史的函数:
环境状态
- 环境状态$S_t^e$是环境的私有表示
- 即环境用来选择下一个观测值/奖励的任何数据
- 智能体通常通看不到环境状态
- 即使可见,环境状态也可能包含不相关的信息
智能体状态
智能体状态$S^a_t$是智能体的内部表示
即智能体用来选择下一步操作的任何信息
即它是强化学习算法使用的信息
它可以是历史的任何函数:
信息状态
信息状态(又称马尔可夫状态)包含历史记录中的所有有用信息。
马尔可夫性的定义如下:
定义
状态$S_t$满足马尔可夫性当且仅当
完全可观测的环境
完全可观测:智能体直接观察环境状态
- 智能体状态=环境
状态=信息状态 - 正式地,这是一个马尔可夫决策过程(MDP)
部分可观测的状态
- 部分可观测性:智能体间接观察环境。
- 智能体的当前状态$\neq $环境状态
- 智能体必须构造自己的状态表示$S_t^a$
RL智能体
RL智能体包括一个或多个以下元素:
- 策略:智能体的行为函数
- 价值函数:描述每个状态和/或动作有多好
- 模型:智能体对环境的表示
策略
- 策略是智能体的行动
- 这是从状态到行动的映射,例如
- 确定性策略:$a=\pi(s)$
- 随机策略:$\pi(a | s)=\mathbb{P}\left[A_{t}=a | S_{t}=s\right] $
价值函数
价值函数是对未来回报的预测
用于评估状态的优缺点
因此要在动作之间进行选择,例如
模型
模型可以预测环境下一步将做什么
$\mathcal P$预测下一个状态
$\mathcal R$预测下一个(即时)奖励,例如
对RL智能体分类
学习和规划
学习和规划是序列决策问题里两个基本问题:
强化学习:
- 最初环境未知
- 智能体与环境互动
- 智能体改善策略
规划:
- 环境模型是已知的
- 智能体使用其模型执行计算(无任何外部互动)
- 智能体改善政策
- 又名思考,推理,搜索
探索与开发
- 强化学习就像试错学习
- 智能体应该在一路上不损失太多奖励的前提下,从其环境经验发现一个好的策略
- 探索发现和有关环境的更多信息
- 开发利用已知信息来最大化回报
- 探索和开发通常都很重要
预测和控制
- 预测:给定策略,评估未来
- 控制:找到最优策略来优化未来
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Doraemonzzz!
评论
ValineLivere