초록

동적 시각 환경에서 언어 조건부 작업을 수행하는 것은 몸을 가진 인공지능(Embodied AI) 분야에서 여전히 핵심적인 도전 과제이다. 기존의 시각-언어-행동(Vision-Language-Action, VLA) 모델들은 주로 반응형 상태-행동 매핑 방식을 채택하고 있어, 짧은 시야를 가진 행동과 동적 환경에서의 낮은 강건성 문제를 겪는다. 본 논문에서는 의사결정 파이프라인에 시각적 전망(visual foresight) 생성을 통합한 사전 학습된 VLA 프레임워크인 F1을 제안한다. F1은 인식(perception), 전망 생성(foresight generation), 제어(control)를 위한 전용 모듈을 갖춘 Transformer 기반의 혼합 모델(Mixture-of-Transformer) 아키텍처를 채택하여, 이해, 생성, 행동 간의 연결 고리를 형성한다. F1의 핵심은 다음 스케일(next-scale) 예측 메커니즘을 활용해 목표 조건부 시각적 전망을 명시적인 계획 목표로 합성하는 것이다. 가능한 미래 시각 상태를 예측함으로써, F1은 행동 생성 문제를 전망 기반 역역학(inverse dynamics) 문제로 재정의하여, 시각적 목표를 암묵적으로 달성하는 행동을 가능하게 한다. F1이 강건하고 일반화 가능한 능력을 갖추도록 하기 위해, 136개의 다양한 작업에서 33만 건 이상의 트래잭터리(trajectory)를 포함하는 방대한 데이터셋을 기반으로 삼은 세 단계의 학습 전략을 제안한다. 이 학습 방식은 모듈형 추론 능력을 향상시키며, 복잡하고 동적인 환경에서 매우 중요한 이식 가능한 시각적 전망 능력을 모델에 부여한다. 실제 세계 작업 및 시뮬레이션 벤치마크에서 수행된 광범위한 평가 결과, F1은 기존 방법들을 일관되게 상회하며, 작업 성공률과 일반화 능력 모두에서 상당한 성능 향상을 달성하였다.

소스 PDF