11日前
RoboUniView:ロボット操作向けの統一視覚表現を備えた視覚言語モデル
Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma

要約
視覚言語モデル(VLMs)をロボット操作に活用することは、新しいパラダイムを示しており、モデルが新たな物体や指示に一般化する能力を向上させることを目的としています。しかし、カメラの仕様や取り付け位置の違いにより、従来の手法は異なるロボットプラットフォーム間で顕著な性能差を示しています。この課題に対処するため、本論文では、視覚特徴抽出と行動学習を分離する革新的なアプローチ「RoboUniView」を提案します。まず、容易に入手可能なデータを用いた事前学習により、多視点からの視覚情報を統合した一貫した視覚表現を学習し、その後、この統合視覚表現から行動を導出することでロボット操作を制御します。この統合視覚表現は物理世界をより正確に反映しており、ロボットプラットフォームのカメラパラメータに制約されません。この手法により、厳しいCALVINベンチマークにおいて最先端の性能を達成し、$D \to D$設定では成功確率を93.0%から96.2%まで向上させ、$ABC \to D$設定では92.2%から94.2%まで改善しました。さらに、本モデルは優れた適応性と柔軟性を示しており、未確認のカメラパラメータ下でも高い性能を維持でき、異なるカメラパラメータを持つ複数のデータセットを併用可能であり、複数データセット間での同時多タスク学習も実現可能です。実装コードも公開されています。https://github.com/liufanfanlff/RoboUniview