自己回帰行動シーケンス学習によるロボット操作

多様なロボットやタスク設定に対して高性能を発揮する普遍的なポリシー構造の設計は、依然として重要な課題である。本研究では、この課題に取り組むために、ロボットの動作を時系列データとして表現し、自己回帰シーケンスモデリングを通じて動作を生成する方法を提案する。既存の自己回帰アーキテクチャは、言語モデルにおける単語トークンと同様にエンドエフェクターのウェイポイントを順次生成するが、これは低周波数制御タスクに限られている。言語とは異なり、ロボットの動作は非均質であり、関節位置や2Dピクセル座標、エンドエフェクターの姿勢などの連続値を頻繁に含むため、言語ベースのモデリングには適していない。この洞察に基づき、我々はシンプルな強化策を導入する:因果変換器(Causal Transformers)の単一トークン予測を拡張し、Chunking Causal Transformer (CCT) を通じて1ステップで可変数のトークンを予測可能にする。この強化策により、異なる制御周波数を持つ多様なタスクでの堅牢な性能向上が可能となり、自己回帰ステップが減少することで効率性が向上し、さらに異なる種類の動作と各動作タイプごとの異なるチャンクサイズを使用したハイブリッドアクションシーケンス設計が実現できる。CCTに基づいて、我々は自己回帰ポリシー(Autoregressive Policy, ARP)アーキテクチャを提案する。ARPはハイブリッドアクションシーケンスを生成することで操作タスクを解決する。ARPの性能評価はPush-T, ALOHA, RLBenchなど多様なロボット操作環境で行われた結果、ARPは全テストベンチマークにおいて環境固有の最先端技術と同等かそれ以上の性能を示し、計算量とパラメータサイズにおいてもより効率的であることが確認された。ARPによる実際のロボットデモンストレーション動画やすべてのソースコードおよび事前学習済みモデルはhttp://github.com/mlzxy/arpで入手可能である。