
要約
視覚的空間的推論は、マルチモーダル大規模言語モデル(MLLM)が物体の性質や空間的関係を理解するための鍵となるが、現行のモデルは3Dに配慮した推論において依然として課題を抱えている。従来のアプローチは、主にRGB入力に深度やセグメンテーションなどの補助モダリティを追加することで認識能力を強化する、あるいは空間的VQAデータセットでの学習と強化学習の適用により推論能力を向上させる、という二つのアプローチに分かれており、これらを独立して扱う傾向にある。本研究では、統合型MLLMが空間的認識能力を内発的に高め、適応的で交互に実行される推論(interleaved reasoning)を通じて、より強固な空間的知能を獲得できるかどうかを検証する。そこで、補助モダリティとして深度とセグメンテーションを活用し、2段階の学習プロセスを経て補助モダリティ生成能力と適応的・交互的推論能力を獲得する統合型MLLM「COOPER」を提案する。COOPERは空間的推論性能において平均で6.91%の向上を達成しつつ、汎用性能を維持している。さらに、補助モダリティ生成に特化して学習されたバージョンでも、距離およびサイズ推定において7.92%の改善が得られ、補助モダリティの生成を学ぶことによって空間的知識が内面化され、空間理解が強化される可能性が示唆された。