HyperAIHyperAI

Command Palette

Search for a command to run...

値予測ネットワーク

Junhyuk Oh Satinder Singh Honglak Lee

概要

本論文では、モデルフリーとモデルベースの強化学習(RL)手法を単一のニューラルネットワークに統合した新しい深層強化学習アーキテクチャである「バリュー予測ネットワーク(Value Prediction Network: VPN)」を提案する。一般的なモデルベースのRL手法とは異なり、VPNは抽象状態が将来の価値(報酬の割引累積和)をオプション条件付きで予測する動態モデルを学習する。実験結果から、慎重な計画が必要だが正確な観測予測モデルの構築が難しい確率的な環境において、VPNはモデルフリーおよびモデルベースの基準手法よりもいくつかの利点があることが示された。さらに、短期先読み計画即便でも複数のAtariゲームでディープQネットワーク(Deep Q-Network: DQN)を上回る性能を発揮し、良質な状態表現を学習する新たな方法としての可能性を示している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています