HyperAIHyperAI
vor 5 Tagen

Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen

Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang
Nav-R1: Schlussfolgern und Navigation in körperhaften Szenen
Abstract

Embodied Navigation erfordert von Agenten die Integration von Wahrnehmung, Schlussfolgerung und Aktion, um robuste Interaktionen in komplexen 3D-Umgebungen zu ermöglichen. Bestehende Ansätze leiden oft unter inkohärenten und instabilen Schlussfolgerungstrajektorien, die die Generalisierbarkeit über verschiedene Umgebungen behindern, sowie unter Schwierigkeiten, eine Balance zwischen langfristiger semantischer Schlussfolgerung und latenzarmem Kontrollverhalten für Echtzeitnavigation herzustellen. Um diese Herausforderungen zu bewältigen, stellen wir Nav-R1 vor – ein embodied Foundation-Modell, das die Schlussfolgerung in embodied Umgebungen vereint. Zunächst erstellen wir Nav-CoT-110K, eine großskalige Datensammlung mit schrittweisen Chains-of-Thought (CoT) für embodied Aufgaben, die eine kaltgestartete Initialisierung mit strukturierter Schlussfolgerung ermöglicht. Auf dieser Grundlage entwerfen wir einen auf GRPO basierenden Verstärkungslernansatz mit drei komplementären Belohnungskomponenten: Format, Verständnis und Navigation, um die strukturelle Kohärenz, die semantische Fundierung und die Pfadtreue zu verbessern. Darüber hinaus führen wir ein Fast-in-Slow-Schlussfolgerungsparadigma ein, das die bewusste semantische Schlussfolgerung von latenzarmen reaktiven Steuerungssystemen entkoppelt, um eine effiziente und dennoch kohärente Navigation zu ermöglichen. Umfangreiche Evaluierungen auf Benchmarks für embodied AI zeigen, dass Nav-R1 konsistent starke Baselines übertrifft, wobei eine durchschnittliche Verbesserung von über 8 % bei der Schlussfolgerungs- und Navigationsleistung erreicht wird. Die praktische Anwendung auf einem mobilen Roboter bestätigt zudem die Robustheit des Modells unter begrenzten Onboard-Ressourcen. Code: this https URL. Website: this https URL.