HyperAIHyperAI

Command Palette

Search for a command to run...

Perceiver-Actor:ロボット操作のためのマルチタスクTransformer

Mohit Shridhar Lucas Manuelli Dieter Fox

概要

Transformerは、大規模なデータセットにスケール可能であるという特長により、視覚および自然言語処理分野を革新しました。しかし、ロボット操作分野では、データが限られており、収集コストも高いため、Transformerの恩恵を享受できるかどうかは不透明です。適切な問題定式化のもとで、操作タスクはTransformerの利点を活かすことができるでしょうか?本研究では、多タスク6自由度(6-DoF)操作を対象に、言語条件付きの行動クラッシングエージェント「PerAct」を提案することで、この問いに取り組みます。PerActは、Perceiver Transformerを用いて言語ゴールとRGB-Dボクセル観測を符号化し、「次に最適なボクセル行動を検出する」ことで離散化された行動を出力します。2D画像を扱う従来のフレームワークとは異なり、ボクセル化された3D観測空間および行動空間は、6-DoF行動の効率的な学習に強い構造的事前知識を提供します。この定式化により、各タスクに対して数回の示範データのみを用いて、18のRLBenchタスク(249のバリエーション)および7つの実世界タスク(18のバリエーション)を統合的に学習可能な単一の多タスクTransformerを訓練しました。実験結果から、PerActは、非構造的な画像から行動への変換エージェントや3D ConvNetベースラインに対して、幅広い卓上タスクにおいて顕著な性能向上を達成することが示されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています