Command Palette

Search for a command to run...

行为-评判算法 actor-critic Algorithm

日期

7 年前

行为-评判算法 Actor-Critic Algorithm 是一种增强学习算法,其结合策略网络和价值函数,通过结果的奖惩信息计算不同状态下不同动作被采用的概率,其又被称为 AC 算法。

行为-评判算法设计两个神经网络,每次都在连续状态中更新参数,且每次参数更新前后都存在相关性,其相较于传统策略网络有更好的学习效率和性能,但容易产生偏见,因此只能产出局部最优解。

AC 算法优势

  • 更好的收敛性
  • 高维度和连续动作空间效果更好
  • 可采用 Stochastic 策略

AC 算法劣势

  • 通常得到是局部最优解
  • 评价策略效率较低,且存在较高偏差

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供