8ヶ月前

概要

言語条件付きロボットポリシーを新しいタスクに一般化することは、適切なシミュレーションベンチマークの欠如により大きな課題となっています。本論文では、このギャップに対処するために、視覚言語ロボット操作ポリシーの一般化能力を評価する新しいベンチマークであるGemBenchを導入します。GemBenchは7つの一般的なアクションプリミティブと4つの一般化レベル（新規配置、剛体および可動物体、複雑な長期タスク）を組み込んでいます。私たちは最先端の手法をGemBenchで評価し、さらに新しい方法も提案します。当方針3D-LOTUSは、言語条件付きの行動予測のために豊富な3D情報を活用します。3D-LOTUSは既知のタスクにおいて効率性と性能で優れていますが、新規タスクには苦戦しています。これを解決するために、3D-LOTUS++というフレームワークを提示します。3D-LOTUS++は3D-LOTUSの動作計画能力とLLMの大規模言語モデルのタスク計画能力、VLMの視覚言語モデルによるオブジェクト位置特定精度を統合しています。3D-LOTUS++はGemBenchの新規タスクにおいて最先端の性能を達成し、ロボット操作における一般化に新たな基準を設けています。ベンチマーク、コード、および学習済みモデルはhttps://www.di.ens.fr/willow/research/gembench/で利用可能です。

ソースPDF