行为-评判算法 actor-critic Algorithm

行为-评判算法 Actor-Critic Algorithm 是一种增强学习算法,其结合策略网络和价值函数,通过结果的奖惩信息计算不同状态下不同动作被采用的概率,其又被称为 AC 算法。

行为-评判算法设计两个神经网络,每次都在连续状态中更新参数,且每次参数更新前后都存在相关性,其相较于传统策略网络有更好的学习效率和性能,但容易产生偏见,因此只能产出局部最优解。

AC 算法优势

  • 更好的收敛性
  • 高维度和连续动作空间效果更好
  • 可采用 Stochastic 策略

AC 算法劣势

  • 通常得到是局部最优解
  • 评价策略效率较低,且存在较高偏差