6ヶ月前

概要

Transformerは、大規模なデータセットにスケール可能であるという特長により、視覚および自然言語処理分野を革新しました。しかし、ロボット操作分野では、データが限られており、収集コストも高いため、Transformerの恩恵を享受できるかどうかは不透明です。適切な問題定式化のもとで、操作タスクはTransformerの利点を活かすことができるでしょうか？本研究では、多タスク6自由度（6-DoF）操作を対象に、言語条件付きの行動クラッシングエージェント「PerAct」を提案することで、この問いに取り組みます。PerActは、Perceiver Transformerを用いて言語ゴールとRGB-Dボクセル観測を符号化し、「次に最適なボクセル行動を検出する」ことで離散化された行動を出力します。2D画像を扱う従来のフレームワークとは異なり、ボクセル化された3D観測空間および行動空間は、6-DoF行動の効率的な学習に強い構造的事前知識を提供します。この定式化により、各タスクに対して数回の示範データのみを用いて、18のRLBenchタスク（249のバリエーション）および7つの実世界タスク（18のバリエーション）を統合的に学習可能な単一の多タスクTransformerを訓練しました。実験結果から、PerActは、非構造的な画像から行動への変換エージェントや3D ConvNetベースラインに対して、幅広い卓上タスクにおいて顕著な性能向上を達成することが示されました。

ソースPDF