HyperAIHyperAI

Command Palette

Search for a command to run...

RoboPoint: ロボティクスの空間アフォーダンス予測のためのビジョン言語モデル

Wentao Yuan Jiafei Duan Vals Blukis Wilbert Pumacay Ranjay Krishna Adithyavairavan Murali Arshalan Mousavian Dieter Fox

概要

テーブル上の物体の配置から食品の棚入れまで、ロボットはタスクを正確かつ確実に実行するために精密な動作ポイントを計画する必要があります。最近、ビジョン言語モデル(VLMs)がロボットの行動制御に採用されていますが、これらのモデルは言語を使用してロボットの動作を正確に表現することが困難です。本稿では、ロボット領域とニーズに合わせてVLMsを指示調整するための自動的な合成データ生成パイプラインを紹介します。このパイプラインを使用して、言語指示に基づいて画像キーポイントアフォーダンスを予測するVLMであるRoboPointを訓練しました。当方法は現実世界でのデータ収集や人間によるデモンストレーションを必要としないため、多様な環境や視点に対して大幅にスケーラブルです。さらに、RoboPointは一般的なモデルであり、ロボットナビゲーション、操作、拡張現実(AR)支援などの複数の下流アプリケーションを可能にします。我々の実験結果は、RoboPointが最新のVLMs(GPT-4o)や視覚プロンプト技術(PIVOT)よりも空間アフォーダンス予測精度で21.8%、下流タスク成功率で30.5%優れていることを示しています。プロジェクトウェブサイト: https://robo-point.github.io.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています