2ヶ月前
GRI: 一般強化模倣およびそのビジョンベースの自動運転への応用
Raphael Chekroun; Marin Toromanoff; Sascha Hornauer; Fabien Moutarde

要約
深層強化学習(DRL)は、自律走行やロボティクスなどの複雑な意思決定応用において効果的であることが示されています。しかし、DRLはその高いサンプル複雑さと安定性の欠如により、しばしば制限されます。専門家のデモンストレーションなど、事前知識がしばしば利用可能ですが、これらの問題を緩和するために活用することは困難です。本論文では、探索の利点と専門家データを組み合わせ、任意のオフポリシー強化学習アルゴリズムに簡単に実装できる新しい手法である一般化された強化学習模倣(GRI)を提案します。我々は一つの単純化した仮定を行います:専門家のデモンストレーションは、その背後のポリシーが常に高い報酬を得る完璧なデータとして見なすことができます。この仮定に基づき、GRIはオフラインデモンストレーションエージェントという概念を導入します。このエージェントは、オンライン強化学習探査エージェントから得られる経験と同時に処理され、区別できない専門家データを送信します。我々のアプローチが都市環境におけるビジョンベースの自律走行で大幅な改善をもたらすことを示しています。さらに、異なるオフポリシー強化学習アルゴリズムを使用してMujoco連続制御タスクでのGRI手法の有効性を検証しました。我々の方法はCARLA リーダーボードで1位となり、以前の最先端技術であったWorld on Railsに対して17%の性能向上を達成しました。