HyperAIHyperAI

Command Palette

Search for a command to run...

汎化可能なビジョン言語ロボット操作への道:ベンチマークとLLM誘導3Dポリシー

Ricardo Garcia Shizhe Chen Cordelia Schmid

概要

言語条件付きロボットポリシーを新しいタスクに一般化することは、適切なシミュレーションベンチマークの欠如により大きな課題となっています。本論文では、このギャップに対処するために、視覚言語ロボット操作ポリシーの一般化能力を評価する新しいベンチマークであるGemBenchを導入します。GemBenchは7つの一般的なアクションプリミティブと4つの一般化レベル(新規配置、剛体および可動物体、複雑な長期タスク)を組み込んでいます。私たちは最先端の手法をGemBenchで評価し、さらに新しい方法も提案します。当方針3D-LOTUSは、言語条件付きの行動予測のために豊富な3D情報を活用します。3D-LOTUSは既知のタスクにおいて効率性と性能で優れていますが、新規タスクには苦戦しています。これを解決するために、3D-LOTUS++というフレームワークを提示します。3D-LOTUS++は3D-LOTUSの動作計画能力とLLMの大規模言語モデルのタスク計画能力、VLMの視覚言語モデルによるオブジェクト位置特定精度を統合しています。3D-LOTUS++はGemBenchの新規タスクにおいて最先端の性能を達成し、ロボット操作における一般化に新たな基準を設けています。ベンチマーク、コード、および学習済みモデルはhttps://www.di.ens.fr/willow/research/gembench/で利用可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています