Command Palette
Search for a command to run...

초록
우리는 WorldVLA를 소개합니다. 이는 행동과 이미지 이해 및 생성을 통합하는 자기 회귀적인 행동 세계 모델입니다. 우리의 WorldVLA는 Vision-Language-Action (VLA) 모델과 세계 모델을 하나의 단일 프레임워크로 통합합니다. 세계 모델은 환경의 기본 물리학을 학습하여 행동 생성을 개선하기 위해 행동과 이미지 이해를 활용하여 미래의 이미지를 예측합니다. 한편, 행동 모델은 이미지 관찰에 기반하여 다음 행동을 생성하며, 이는 시각적 이해를 돕고 다시 세계 모델의 시각적 생성을 지원합니다. 우리는 WorldVLA가 독립적인 행동 모델과 세계 모델보다 우수한 성능을 보임으로써, 세계 모델과 행동 모델 간의 상호 강화 효과를 강조합니다. 또한, 우리는 행동 모델이 자기 회귀 방식으로 행동 시퀀스를 생성할 때 성능이 저하되는 것을 발견했습니다. 이 현상은 행동 예측에 대한 모델의 제한된 일반화 능력으로 인해 초기 행동에서 후속 행동으로 오류가 전파되기 때문입니다. 이를 해결하기 위해, 우리는 현재 행동 생성 중에 이전 행동을 선택적으로 마스킹하는 주의력 마스크 전략을 제안하며, 이 전략은 행동 조각 생성 작업에서 성능 향상을 크게 보여주었습니다.
코드 저장소
alibaba-damo-academy/worldvla
공식
pytorch
GitHub에서 언급됨