异策略 Off Policy

异策略是指生成新样本的策略与网络更新参数时使用的策略不同,典型有 Q-learning  算法。

异策略思想

异策略是指学习的策略和采样的策略不相同,其先产生某概率分布下的大量行为数据,后从这些偏离 Off 最优策略的数据中找寻目标策略。

这种方案的采取需要满足以下条件:假设 π 是目标策略,μ 是行为策略,那么从 μ 学到 π 的条件是 π ( a | s ) > 0 时,必然有 µ ( a | s ) > 0 成立。

Q-learning 算法

Q-Learning 算法基于感知奖励和惩罚,学习如何选择下一步动作,其中 Q 代表策略 π 的质量函数 Quality Function,该函数可在观察状态 s 确定动作 a 后,将每个状态动作对 ( s , a ) 与总期望的未来奖励进行映射。

Q-Learning 算法属于 Model-Free 型,这表示其不会对 MDP 动态知识进行建模,而是直接估计每个状态下不同动作的 Q 值,然后在每个状态下选择具有最高 Q 值的动作,并选择对应的策略。

若计算机不断访问所有状态动作,则 Q-Learning 算法会收敛到最优 Q 函数。

异策略优势

  • 可以基于人类给出的示教样本或其他智能体给出的引导样本学习;
  • 可以使用由旧策略生成的经验;
  • 可以在使用一个探索性策略的同时学习一个确定性策略;
  • 可以用一个策略进行采样,同时学习多个策略。
相关词:  同策略 、策略函数