DreamVLA: 포괄적인 세계 지식을 바탕으로 꾸민 시각-언어-행동 모델

최근 시각-언어-행동(Vision-Language-Action, VLA) 모델의 발전은 이미지 생성과 행동 예측을 통합하여 로봇 조작에서 일반화와 추론 능력을 향상시키는 데 유망한 결과를 보여주었습니다. 그러나 기존 방법들은 과도한 정보와 동적, 공간적, 의미적 정보를 포함하지 않는 포괄적이고 중요한 세계 지식이 부족한 도전적인 이미지 기반 예측에 제한되어 있습니다. 이러한 한계를 극복하기 위해, 우리는 DreamVLA라는 새로운 VLA 프레임워크를 제안합니다. 이 프레임워크는 포괄적인 세계 지식 예측을 통합하여 역역학 모델링을 가능하게 하며, 이를 통해 조작 작업을 위한 인식-예측-행동 루프를 구축합니다.특히, DreamVLA는 동적 영역 안내형 세계 지식 예측(dynamic-region-guided world knowledge prediction)을 도입하여, 공간적 및 의미적 신호와 통합함으로써 행동 계획에 필요한 간결하면서도 포괄적인 표현을 제공합니다. 이 설계는 인간이 행동하기 전에 추상적인 다중모달 추론 체인을 형성하는 방식과 일치합니다. 또한, 학습 중 동적, 공간적, 의미적 정보 간의 간섭을 완화하기 위해 블록별 구조화된 주의 메커니즘(block-wise structured attention mechanism)을 채택하여 서로간의 주의를 마스킹하고 정보 누출을 방지하며 각 표현이 깨끗하고 분리되도록 유지합니다.또한, 미래 행동에 대한 조건부 분포를 모델링하기 위해 공유 잠재 특징에서 행동 표현을 분리하는 확산 기반 트랜스포머(diffusion-based transformer)를 사용합니다. 실제 환경과 시뮬레이션 환경에서 수행된 광범위한 실험 결과, DreamVLA는 실제 로봇 작업에서 76.7%의 성공률과 CALVIN ABC-D 벤치마크에서 평균 4.44의 길이를 달성했습니다.