HyperAIHyperAI

Command Palette

Search for a command to run...

Console

行为-评判算法 actor-critic Algorithm

Date

7 年前

行为-评判算法 Actor-Critic Algorithm 是一种增强学习算法,其结合策略网络和价值函数,通过结果的奖惩信息计算不同状态下不同动作被采用的概率,其又被称为 AC 算法。

行为-评判算法设计两个神经网络,每次都在连续状态中更新参数,且每次参数更新前后都存在相关性,其相较于传统策略网络有更好的学习效率和性能,但容易产生偏见,因此只能产出局部最优解。

AC 算法优势

  • 更好的收敛性
  • 高维度和连续动作空间效果更好
  • 可采用 Stochastic 策略

AC 算法劣势

  • 通常得到是局部最优解
  • 评价策略效率较低,且存在较高偏差

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
行为-评判算法 actor-critic Algorithm | Wiki | HyperAI超神经