Search for a command to run...
日期
同策略指生成样本的策略与网络更新参数策略相同,其基于当前的策略直接执行下一次动作选择,然后用这个样本更新策略,生成样本的策略和学习时的策略相同。
SARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法,通常用于机器学习领域的增强学习上。
同策略和异策略的区别在于:更新 Q 值时,是沿用既定的策略还是使用新的策略。
从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发