Command Palette
Search for a command to run...
Shouwei Ruan Liyuan Wang Caixin Kang Qihui Zhu Songming Liu Xingxing Wei Hang Su

要約
空間認知は、空間の内部モデルを構築することで、適応的かつ目的指向的な行動を可能にする。強固な生物系は、空間知識を、顕著な手がかりとしてのランドマーク、移動経路としてのルート知識、地図に類似した表現としてのサーベイ知識という、三つの相互接続された形に統合する。近年の多モーダル大規模言語モデル(MLLM)の進展により、エンボディドエージェントにおける視覚言語推論が可能になったが、これらのアプローチは構造化された空間記憶を欠いており、反応的な動作にとどまっているため、複雑な現実世界環境における汎化能力および適応性に制限がある。本研究では、エンボディドエージェントにおける構造化された空間記憶の構築と活用を統合的に実現するフレームワーク「脳にインスパイアされたナビゲーション空間認知(BSC-Nav)」を提案する。BSC-Navは、エゴセントリックな経路と文脈的ヒントから、アロセントリックな認知地図を構築し、意味的目標に整合した空間知識を動的に取得する。強力なMLLMと統合することで、BSC-Navは多様なナビゲーションタスクにおいて最先端の効率性と効果性を達成し、強力なゼロショット汎化能力を示すとともに、現実の物理空間における多様なエンボディド行動を実現可能とする。本研究は、汎用的な空間知能の実現に向けて、スケーラブルかつ生物学的に根ざした道筋を提示している。