7ヶ月前

ニューラルネットワーク

畳み込みニューラルネットワーク

アプローチ／フレームワーク

Ziyu Wang Tom Schaul Matteo Hessel Hado van Hasselt Marc Lanctot Nando de Freitas

概要

近年、強化学習における深層表現の利用に多くの成功例が見られています。しかし、これらのアプリケーションの多くは、畳み込みニューラルネットワーク、LSTM（Long Short-Term Memory）、オートエンコーダーなどの従来のアーキテクチャを使用しています。本論文では、モデルフリーの強化学習向けに新しいニューラルネットワークアーキテクチャを提案します。私たちのデュエルネットワークは、状態価値関数と状態依存的な行動優位関数をそれぞれ推定する2つの分離された推定器を表現します。この分解の主な利点は、基礎となる強化学習アルゴリズムに変更を加えることなく、行動間での学習を一般化できることです。我々の結果は、類似した価値を持つ多くの行動が存在する場合に、このアーキテクチャがより良い方策評価につながることを示しています。さらに、デュエルアーキテクチャにより、当社の強化学習エージェントはAtari 2600ドメインにおいて最先端技術を超える性能を発揮しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ニューラルネットワーク

畳み込みニューラルネットワーク

アプローチ／フレームワーク

Ziyu Wang Tom Schaul Matteo Hessel Hado van Hasselt Marc Lanctot Nando de Freitas

概要

近年、強化学習における深層表現の利用に多くの成功例が見られています。しかし、これらのアプリケーションの多くは、畳み込みニューラルネットワーク、LSTM（Long Short-Term Memory）、オートエンコーダーなどの従来のアーキテクチャを使用しています。本論文では、モデルフリーの強化学習向けに新しいニューラルネットワークアーキテクチャを提案します。私たちのデュエルネットワークは、状態価値関数と状態依存的な行動優位関数をそれぞれ推定する2つの分離された推定器を表現します。この分解の主な利点は、基礎となる強化学習アルゴリズムに変更を加えることなく、行動間での学習を一般化できることです。我々の結果は、類似した価値を持つ多くの行動が存在する場合に、このアーキテクチャがより良い方策評価につながることを示しています。さらに、デュエルアーキテクチャにより、当社の強化学習エージェントはAtari 2600ドメインにおいて最先端技術を超える性能を発揮しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています