초록

신체화 탐색은 복잡한 3D 환경에서 안정적인 상호작용을 위해 에이전트가 인지, 추론, 행동을 통합해야 하는 과제를 요구한다. 기존의 접근 방식은 다양한 환경 간 일반화를 방해하는 일관성 없는 추론 흐름과, 장기적인 의미 추론과 실시간 탐색을 위한 저지연 제어 간의 균형을 맞추기 어려운 문제를 겪는다. 이러한 도전 과제를 해결하기 위해, 우리는 신체화 환경 내에서 추론을 통합하는 신체화 기초 모델인 Nav-R1을 제안한다. 먼저, 신체화 작업을 위한 단계별 사고 흐름(Chains-of-Thought, CoT)을 포함하는 대규모 데이터셋인 Nav-CoT-110K를 구축하여 구조화된 추론으로 시작할 수 있는 콜드스타트 초기화를 가능하게 한다. 이 기반 위에서, 구조적 일관성, 의미적 기반, 경로 충실도를 향상시키기 위해 세 가지 보완적인 보상(형식, 이해, 탐색)을 갖춘 GRPO 기반 강화학습 프레임워크를 설계하였다. 더불어, 체계적이고 효율적인 탐색을 가능하게 하기 위해, 의도적인 의미 추론과 저지연 반응형 제어를 분리하는 '빠르게 시작하되 천천히 추론하는(Fast-in-Slow)' 추론 패러다임을 도입하였다. 신체화 AI 벤치마크에서 실시한 광범위한 평가 결과, Nav-R1은 강력한 기준 모델들을 지속적으로 상회하며, 추론 및 탐색 성능에서 평균 8% 이상의 향상을 달성하였다. 모바일 로봇을 대상으로 한 실제 환경 배포를 통해, 제한된 온보드 자원에서도 모델의 강건성을 추가로 검증하였다. 코드: this https URL. 웹사이트: this https URL.

소스 PDF 코드 보기