HyperAI超神经

行为-评判算法 Actor-Critic Algorithm 是一种增强学习算法，其结合策略网络和价值函数，通过结果的奖惩信息计算不同状态下不同动作被采用的概率，其又被称为 AC 算法。

行为-评判算法设计两个神经网络，每次都在连续状态中更新参数，且每次参数更新前后都存在相关性，其相较于传统策略网络有更好的学习效率和性能，但容易产生偏见，因此只能产出局部最优解。

行为-评判算法 Actor-critic Algorithm