6日前

コアス・トゥ・ファイン Q-アテンション：離散化を用いた効率的な学習による視覚ロボット操作

Stephen James, Kentaro Wada, Tristan Laidlow, Andrew J. Davison

要約

本研究では、連続的なロボティクス領域において不安定でデータ効率が低いアクター・クリティック手法の代わりに、離散的強化学習アプローチを用いることを可能にする「粗-細」階層型離散化手法を提案する。このアプローチは、最近公開されたARMアルゴリズムに基づいており、連続的な次-bestポーズエージェントを離散的なものに置き換えるとともに、粗-細階層型Q-アテンションを導入している。ボクセル化されたシーンを入力として、粗-細階層型Q-アテンションはシーンのどの部分に「ズーム」するかを学習する。この「ズーム」行動を繰り返し適用することで、並びの翻訳空間に対する近似損失のない離散化が実現され、離散的行動を扱う深層Q学習手法の適用が可能となる。我々は、この新しい粗-細階層型アルゴリズムが、複数の難易度の高いスパース報酬付きRLBench視覚ベースロボティクスタスクにおいて最先端の性能を達成できることを示し、わずか3回のデモで、実世界のポリシーを数分間でタブラ・ラサ（何も前提知識なし）で学習可能であることを実証した。