EmbRACE-3K: 복잡한 환경에서의 체화된 추론과 행동

최근 고급 시각-언어 모델(VLMs)은 패시브 오프라인 이미지 및 비디오 이해 작업에서 뛰어난 성능을 보여주었습니다. 그러나 온라인 상호작용과 능동적 장면 이해가 필요한 환경에서는 그 효과가 제한적입니다. 이러한 시나리오에서는 에이전트가 제1인칭 관점에서 환경을 인식하며, 각 행동이 후속 관찰을 동적으로 형성합니다. GPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro와 같은 최신 모델들조차도 개방형 환경에서의 상호작용에서 어려움을 겪으며, 공간 추론과 장기 계획 수립에 명확한 한계를 보입니다.이러한 간극을 메우기 위해, 우리는 Unreal Engine과 UnrealCV-Zoo 프레임워크를 사용하여 구축된 다양한 사진같이 사실적인 환경에 위치한 3,000개 이상의 언어 안내型 태스크로 구성된 EmRACE-3K 데이터셋을 소개합니다(EmRACE-3K). 이 태스크들은 네비게이션, 객체 조작, 다단계 목표 실행 등 다양한 몸체화된 도전 과제를 포함합니다. 각 태스크는 여러 단계의 궤도로 전개되며, 제1인칭 시각적 관찰과 고수준 지시사항, 실제 행동, 그리고 에이전트의 의도를 표현하는 자연어 설명을 짝짓습니다.EmRACE-3K를 사용하여, 우리는 VLMs의 몸체화된 추론 능력을 평가하기 위한 벤치마크를 설정하였습니다. 이 벤치마크는 세 가지 핵심 차원으로 구성됩니다: 탐색(Exploration), 동적 공간-의미론적 추론(Dynamic Spatial-Semantic Reasoning), 다단계 목표 실행(Multi-stage Goal Execution). 제로샷 설정에서 모든 모델은 20% 미만의 성공률을 기록하였으며, 이는 우리의 벤치마크가 제시하는 도전과 현재 VLMs가 상호작용 환경에서 직면한 한계를 강조합니다.EmRACE-3K의 활용성을 입증하기 위해, 우리는 감독 학습 후 강화 학습을 통해 Qwen2.5-VL-7B를 추가로 미세 조정하였습니다. 이 접근 방식은 세 가지 도전 카테고리 모두에서 실질적인 개선을 가져왔으며, 데이터셋이 몸체화된 추론 능력 개발에 효과적임을 강조합니다.