异策略是指生成新样本的策略与网络更新参数时使用的策略不同,典型有 Q-learning 算法。
异策略是指学习的策略和采样的策略不相同,其先产生某概率分布下的大量行为数据,后从这些偏离 Off 最优策略的数据中找寻目标策略。
这种方案的采取需要满足以下条件:假设 π 是目标策略,μ 是行为策略,那么从 μ 学到 π 的条件是 π ( a | s ) > 0 时,必然有 µ ( a | s ) > 0 成立。
Q-learning 算法
Q-Learning 算法基于感知奖励和惩罚,学习如何选择下一步动作,其中 Q 代表策略 π 的质量函数 Quality Function,该函数可在观察状态 s 确定动作 a 后,将每个状态动作对 ( s , a ) 与总期望的未来奖励进行映射。
Q-Learning 算法属于 Model-Free 型,这表示其不会对 MDP 动态知识进行建模,而是直接估计每个状态下不同动作的 Q 值,然后在每个状态下选择具有最高 Q 值的动作,并选择对应的策略。
若计算机不断访问所有状态动作,则 Q-Learning 算法会收敛到最优 Q 函数。