异策略 Off Policy
异策略是指生成新样本的策略与网络更新参数时使用的策略不同,典型有 Q-learning 算法。
异策略思想
异策略是指学习的策略和采样的策略不相同,其先产生某概率分布下的大量行为数据,后从这些偏离 Off 最优策略的数据中找寻目标策略。
这种方案的采取需要满足以下条件:假设 π 是目标策略,μ 是行为策略,那么从 μ 学到 π 的条件是 π ( a | s ) > 0 时,必然有 µ ( a | s ) > 0 成立。
Q-learning 算法
Q-Learning 算法基于感知奖励和惩罚,学习如何选择下一步动作,其中 Q 代表策略 π 的质量函数 Quality Function,该函数可在观察状态 s 确定动作 a 后,将每个状态动作对 ( s , a ) 与总期望的未来奖励进行映射。
Q-Learning 算法属于 Model-Free 型,这表示其不会对 MDP 动态知识进行建模,而是直接估计每个状态下不同动作的 Q 值,然后在每个状态下选择具有最高 Q 值的动作,并选择对应的策略。
若计算机不断访问所有状态动作,则 Q-Learning 算法会收敛到最优 Q 函数。
异策略优势
- 可以基于人类给出的示教样本或其他智能体给出的引导样本学习;
- 可以使用由旧策略生成的经验;
- 可以在使用一个探索性策略的同时学习一个确定性策略;
- 可以用一个策略进行采样,同时学习多个策略。