Nav-R1 : Raisonnement et navigation dans des scènes incarnées

La navigation incarnée exige que les agents intègrent perception, raisonnement et action afin d’interagir de manière robuste dans des environnements 3D complexes. Les approches existantes souffrent souvent de traces de raisonnement incohérentes et instables, ce qui entrave la généralisation à travers divers environnements, ainsi que de difficultés à équilibrer le raisonnement sémantique à long terme et le contrôle à faible latence nécessaire à la navigation en temps réel. Pour relever ces défis, nous proposons Nav-R1, un modèle fondamental incarné qui unifie le raisonnement dans les environnements incarnés. Nous construisons tout d’abord Nav-CoT-110K, un grand jeu de données de chaînes de raisonnement (Chains-of-Thought, CoT) pas à pas pour des tâches incarnées, permettant une initialisation « à froid » basée sur un raisonnement structuré. Sur cette base, nous concevons un cadre d’apprentissage par renforcement basé sur GRPO, comprenant trois récompenses complémentaires : format, compréhension et navigation, afin d’améliorer l’adhérence structurelle, le fondement sémantique et la fidélité du trajet. En outre, nous introduisons un paradigme de raisonnement « Fast-in-Slow », qui déconnecte le raisonnement sémantique réfléchi du contrôle réactif à faible latence, permettant ainsi une navigation à la fois efficace et cohérente. Des évaluations étendues sur des benchmarks d’intelligence artificielle incarnée montrent que Nav-R1 dépasse systématiquement les modèles de référence performants, avec une amélioration moyenne de plus de 8 % en matière de raisonnement et de navigation. Le déploiement en situation réelle sur un robot mobile confirme également sa robustesse dans des conditions de ressources embarquées limitées. Code : [ce lien URL]. Site web : [ce lien URL].