2ヶ月前
RoboPoint: ロボティクスの空間アフォーダンス予測のためのビジョン言語モデル
Wentao Yuan; Jiafei Duan; Valts Blukis; Wilbert Pumacay; Ranjay Krishna; Adithyavairavan Murali; Arsalan Mousavian; Dieter Fox

要約
テーブル上の物体の配置から食品の棚入れまで、ロボットはタスクを正確かつ確実に実行するために精密な動作ポイントを計画する必要があります。最近、ビジョン言語モデル(VLMs)がロボットの行動制御に採用されていますが、これらのモデルは言語を使用してロボットの動作を正確に表現することが困難です。本稿では、ロボット領域とニーズに合わせてVLMsを指示調整するための自動的な合成データ生成パイプラインを紹介します。このパイプラインを使用して、言語指示に基づいて画像キーポイントアフォーダンスを予測するVLMであるRoboPointを訓練しました。当方法は現実世界でのデータ収集や人間によるデモンストレーションを必要としないため、多様な環境や視点に対して大幅にスケーラブルです。さらに、RoboPointは一般的なモデルであり、ロボットナビゲーション、操作、拡張現実(AR)支援などの複数の下流アプリケーションを可能にします。我々の実験結果は、RoboPointが最新のVLMs(GPT-4o)や視覚プロンプト技術(PIVOT)よりも空間アフォーダンス予測精度で21.8%、下流タスク成功率で30.5%優れていることを示しています。プロジェクトウェブサイト: https://robo-point.github.io.