2ヶ月前
大規模な好奇心駆動学習の研究
Yuri Burda; Harri Edwards; Deepak Pathak; Amos Storkey; Trevor Darrell; Alexei A. Efros

要約
強化学習アルゴリズムは、エージェントに外部的な環境報酬を慎重に設計することに依存しています。しかし、各環境に対して手動で設計された密な報酬を注釈することはスケーラブルではなく、エージェント自身に内在的な報酬関数を開発する必要性が高まっています。好奇心は、予測誤差を報酬信号として使用する内在的な報酬関数の一種です。本論文では以下の研究を行いました:(a) 54の標準ベンチマーク環境(アタリゲームスイートを含む)において、純粋に好奇心駆動型学習(つまり、外部報酬なし)の最初の大規模な研究を行いました。結果は驚くほど良好であり、多くのゲーム環境における内在的な好奇心目的と手動で設計された外部報酬との間に高い一致が見られました。(b) 予測誤差の計算に異なる特徴空間を使用した場合の効果を調査し、ランダムな特徴が多くの人気のある強化学習ゲームベンチマークで十分であることを示しましたが、学習された特徴の方がより一般的に優れていることがわかりました(例えば、スーパーマリオブラザーズの新しいレベルへの一般化など)。(c) 予測に基づく報酬が確率的な設定での限界を示すことを実証しました。ゲームプレイ動画とコードは https://pathak22.github.io/large-scale-curiosity/ で公開されています。