强化学习笔记
创始人
2024-05-30 00:56:02
0次
Lec2 Given a Model of the World
MDP Control
- 计算最优策略
π∗(s)=argmaxπVπ(s)\pi^*(s)=\arg\max\limits_{\pi}V^{\pi}(s) π∗(s)=argπmaxVπ(s) - 存在唯一的最优值函数
- 无限时间问题中的 MDP 最优策略
MDP Policy Iteration (PI)
- 令 i=0i=0i=0
- 为所有状态 sss 随机初始化 π0(s)\pi_0(s)π0(s)
- 当 i==0i==0i==0 或 ∣∣πi−πi−1∣∣1>0||\pi_i-\pi_{i-1}||_1>0∣∣πi−πi−1∣∣1>0 (L1-正则,衡量策略对任一状态是否改变)
- Vπi←MDP V function policyevaluation of πiV^{\pi_i}←\text{MDP V function policyevaluation of }\pi_iVπi←MDP V function policyevaluation of πi
- πi+1←Policy improvement\pi_{i+1}←\text{Policy improvement}πi+1←Policy improvement
- i=i+1i=i+1i=i+1
Value Iteration (VI)
相关内容