
要約
空間的知能は、身体化AI(embodied AI)の重要な構成要素であり、ロボットが環境を理解し、それに適切に相互作用する能力を促進する。近年の進展により、視覚言語モデル(VLM)の物体位置や相対位置関係の認識能力は向上したが、依然として物体の姿勢(orientation)を正確に理解する能力に欠けており、細かい操作を要するタスクにおいては重要な課題である。この課題を克服するには、幾何学的推論に加えて、姿勢を表現するための表現力豊かで直感的な方法が必要となる。このような文脈において、本研究では自然言語が標準的な座標系よりも柔軟な表現空間を提供することを提案する。これは、指示に従うロボットシステムにとって特に適している。本論文では、「意味的姿勢(semantic orientation)」という概念を導入し、参照フレームに依存せずに自然言語を用いて物体の姿勢を定義する(例:USBコネクタの「挿入方向」や包丁の「ハンドル方向」)。この概念を実現するため、幾何学的知識と機能的意味を結びつけるために、3Dモデルを意味的姿勢でアノテーションした大規模データセット「OrienText300K」を構築した。このデータセットをVLMシステムに統合することで、位置と姿勢の両方の制約を伴う操作行動を生成可能にする。シミュレーションおよび現実世界における広範な実験の結果、本手法はロボットの操作能力を顕著に向上させることを示しており、Open6DORでは48.7%、SIMPLERでは74.9%の精度を達成した。