HyperAIHyperAI

Command Palette

Search for a command to run...

RoboUniView:ロボット操作向けの統一視覚表現を備えた視覚言語モデル

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

概要

視覚言語モデル(VLMs)をロボット操作に活用することは、新しいパラダイムを示しており、モデルが新たな物体や指示に一般化する能力を向上させることを目的としています。しかし、カメラの仕様や取り付け位置の違いにより、従来の手法は異なるロボットプラットフォーム間で顕著な性能差を示しています。この課題に対処するため、本論文では、視覚特徴抽出と行動学習を分離する革新的なアプローチ「RoboUniView」を提案します。まず、容易に入手可能なデータを用いた事前学習により、多視点からの視覚情報を統合した一貫した視覚表現を学習し、その後、この統合視覚表現から行動を導出することでロボット操作を制御します。この統合視覚表現は物理世界をより正確に反映しており、ロボットプラットフォームのカメラパラメータに制約されません。この手法により、厳しいCALVINベンチマークにおいて最先端の性能を達成し、DDD \to DDD設定では成功確率を93.0%から96.2%まで向上させ、ABCDABC \to DABCD設定では92.2%から94.2%まで改善しました。さらに、本モデルは優れた適応性と柔軟性を示しており、未確認のカメラパラメータ下でも高い性能を維持でき、異なるカメラパラメータを持つ複数のデータセットを併用可能であり、複数データセット間での同時多タスク学習も実現可能です。実装コードも公開されています。https://github.com/liufanfanlff/RoboUniview


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています