
要約
身体化ナビゲーション(Embodied navigation)は、複雑な3D環境における堅牢な相互作用を実現するため、エージェントが知覚、推論、行動を統合する必要がある。従来のアプローチは、多様な環境間での一般化を阻害する不整合で不安定な推論トレースに悩まされており、リアルタイムナビゲーションにおいて長時間スパンの意味的推論と低遅延制御のバランスを取ることが難しいという課題を抱えている。本研究では、身体化環境における推論を統合するエージェントとして、Nav-R1という身体化ファウンデーションモデルを提案する。まず、身体化タスク向けの段階的推論(Chains-of-Thought, CoT)を大規模に構築したNav-CoT-110Kデータセットを構築し、構造化された推論を備えたコールドスタート初期化を可能にした。この基盤の上に、構造的整合性、意味的根拠、経路忠実性の向上を目的として、フォーマット、理解、ナビゲーションの3つの補完的報酬を組み込んだGRPOに基づく強化学習フレームワークを設計した。さらに、遅延の少ない反応制御と意図的な意味的推論を分離する「Fast-in-Slow推論」パラダイムを導入し、効率的かつ一貫性のあるナビゲーションを実現した。身体化AIベンチマークにおける広範な評価結果から、Nav-R1は強力なベースラインを一貫して上回り、推論およびナビゲーション性能において平均8%以上の向上を達成した。また、モバイルロボットにおける実環境でのデプロイにより、限られたオンボードリソース下でもその堅牢性が確認された。コード:この https URL。ウェブサイト:この https URL。