7ヶ月前

ディープラーニング

ニューラルネットワーク

アプローチ／フレームワーク

Marlos C. Machado Marc G. Bellemare Michael Bowling

概要

本稿では、強化学習（Reinforcement Learning: RL）における探索のための単純なアプローチを紹介します。このアプローチは、テーブル形式の場合において理論的に正当化されたアルゴリズムを開発することを可能にするとともに、関数近似が必要な設定にも拡張可能です。当該アプローチは、元々後続状態の類似性によって状態の一般化を定義するために導入された後続表現（Successor Representation: SR）に基づいています。本稿では、SRのノルムが学習中に報酬ボーナスとして使用され、探索を奨励する手段となることを示します。SRのノルムの一時的な挙動をよりよく理解するために、部分確率的後続表現（Substochastic Successor Representation: SSR）を導入し、それが各状態（または特徴量）が観測された回数を暗黙的にカウントすることを示します。この結果を利用して、サンプル効率性に優れたいくつかの理論的なアプローチと同等の性能を持つアルゴリズムを開発しました。最後に、これらのアイデアをディープRLアルゴリズムに拡張し、低サンプル複雑度体制下でAtari 2600ゲームにおいて最先端の性能を達成したことを示します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ディープラーニング

ニューラルネットワーク

アプローチ／フレームワーク

Marlos C. Machado Marc G. Bellemare Michael Bowling

概要

本稿では、強化学習（Reinforcement Learning: RL）における探索のための単純なアプローチを紹介します。このアプローチは、テーブル形式の場合において理論的に正当化されたアルゴリズムを開発することを可能にするとともに、関数近似が必要な設定にも拡張可能です。当該アプローチは、元々後続状態の類似性によって状態の一般化を定義するために導入された後続表現（Successor Representation: SR）に基づいています。本稿では、SRのノルムが学習中に報酬ボーナスとして使用され、探索を奨励する手段となることを示します。SRのノルムの一時的な挙動をよりよく理解するために、部分確率的後続表現（Substochastic Successor Representation: SSR）を導入し、それが各状態（または特徴量）が観測された回数を暗黙的にカウントすることを示します。この結果を利用して、サンプル効率性に優れたいくつかの理論的なアプローチと同等の性能を持つアルゴリズムを開発しました。最後に、これらのアイデアをディープRLアルゴリズムに拡張し、低サンプル複雑度体制下でAtari 2600ゲームにおいて最先端の性能を達成したことを示します。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています