Command Palette
Search for a command to run...
Huang Fang Mengxi Zhang Heng Dong Wei Li Zixuan Wang Qifeng Zhang Xueyun Tian Yucheng Hu Hang Li

초록
우리는 로봇의 추론, 작업 계획, 자연어 상호작용을 하나의 비전-언어 아키텍처 안에 통합한 통합형 모델인 Robix를 소개한다. 계층적 로봇 시스템의 고수준 인지 계층으로 작동하는 Robix는 하위 컨트롤러에 원자적 명령을 동적으로 생성하고, 인간과의 상호작용을 위한 언어적 응답을 생성함으로써, 복잡한 지시를 따르고 장기적인 작업을 계획하며 인간과 자연스럽게 소통할 수 있는 엔드투엔드 프레임워크를 구현한다. Robix는 작업 수행 중에 능동적인 대화, 실시간 중단 처리, 그리고 맥락 인식 기반의 보편적 지식 추론과 같은 새로운 기능을 도입한다. 핵심적으로 Robix는 사고의 흐름(Chain-of-Thought) 추론을 활용하며, 세 단계의 훈련 전략을 채택한다. (1) 3차원 공간 이해, 시각적 기반화, 작업 중심 추론 등 임베디드 추론 능력을 강화하기 위한 지속적 사전 훈련; (2) 인간-로봇 상호작용과 작업 계획을 통합된 추론-행동 시퀀스로 모델링하기 위한 지도 학습 기반 미세조정; (3) 추론-행동 일관성과 장기적인 작업 흐름의 일관성을 향상시키기 위한 강화 학습. 광범위한 실험을 통해 Robix는 오픈소스 및 상용 기준 모델(예: GPT-4o, Gemini 2.5 Pro)을 모두 상회함을 입증하였으며, 다양한 지시 유형(예: 개방형, 다단계, 제약형, 무효형, 중단된 지시 등)과 인간이 참여하는 다양한 작업(예: 테이블 비우기, 장보기, 식사 필터링)에 걸쳐 뛰어난 일반화 능력을 보였다.