HyperAI超神经

首页资讯最新论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

同策略 On Policy

同策略指生成样本的策略与网络更新参数策略相同，其基于当前的策略直接执行下一次动作选择，然后用这个样本更新策略，生成样本的策略和学习时的策略相同。

SARSA 算法

SARSA（State-Action-Reward-State-Action）是一个学习马尔可夫决策过程策略的算法，通常用于机器学习领域的增强学习上。

SARSA 算法要点

在状态 s’ 时，就知道要采取哪个 a’ ，并采取这个动作；
动作 a 的选取遵循 e-greedy 策略，目标 Q 值的计算根据 e-greedy 策略得到的动作 a’ 计算得来，因此是 on-policy 学习。

同策略的优缺点

优点：每一步都可以更新，这是显然，学习速度快；可面对没有结果的场景，应用范围广。
缺点：遭遇探索-利用的矛盾；只利用已知的最优选择，可能学不到最优解；收敛到局部最优，加入探索而降低学习效率。

同策略和异策略

同策略和异策略的区别在于：更新 Q 值时，是沿用既定的策略还是使用新的策略。