HyperAIHyperAI

Command Palette

Search for a command to run...

分散型優先経験再生

Dan Horgan John Quan David Budden Gabriel Barth-Maron Matteo Hessel Hado van Hasselt David Silver

概要

我々は、大規模な深層強化学習に適した分散アーキテクチャを提案します。このアーキテクチャにより、エージェントは従来よりも桁違いの量のデータから効果的に学習することが可能になります。アルゴリズムは行動と学習を分離しており、アクターは共有ニューラルネットワークに基づいて環境の個々のインスタンスと相互作用し、選択した行動によって得られた経験を共有経験再生メモリに蓄積します;一方、ラーナーは経験のサンプルを再生し、ニューラルネットワークを更新します。このアーキテクチャは優先度付き経験再生(Prioritized Experience Replay)に依存しており、アクターが生成する最も重要なデータにのみ焦点を当てるように設計されています。我々のアー�キテクチャは、アーケード学習環境において大幅に最先端技術を上回り、壁時間での訓練時間が短いにもかかわらずより優れた最終性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています