Command Palette

Search for a command to run...

4달 전

WorldVLA: 자동 회귀적 행동 세계 모델로의 진전

WorldVLA: 자동 회귀적 행동 세계 모델로의 진전

초록

우리는 WorldVLA를 소개합니다. 이는 행동과 이미지 이해 및 생성을 통합하는 자기 회귀적인 행동 세계 모델입니다. 우리의 WorldVLA는 Vision-Language-Action (VLA) 모델과 세계 모델을 하나의 단일 프레임워크로 통합합니다. 세계 모델은 환경의 기본 물리학을 학습하여 행동 생성을 개선하기 위해 행동과 이미지 이해를 활용하여 미래의 이미지를 예측합니다. 한편, 행동 모델은 이미지 관찰에 기반하여 다음 행동을 생성하며, 이는 시각적 이해를 돕고 다시 세계 모델의 시각적 생성을 지원합니다. 우리는 WorldVLA가 독립적인 행동 모델과 세계 모델보다 우수한 성능을 보임으로써, 세계 모델과 행동 모델 간의 상호 강화 효과를 강조합니다. 또한, 우리는 행동 모델이 자기 회귀 방식으로 행동 시퀀스를 생성할 때 성능이 저하되는 것을 발견했습니다. 이 현상은 행동 예측에 대한 모델의 제한된 일반화 능력으로 인해 초기 행동에서 후속 행동으로 오류가 전파되기 때문입니다. 이를 해결하기 위해, 우리는 현재 행동 생성 중에 이전 행동을 선택적으로 마스킹하는 주의력 마스크 전략을 제안하며, 이 전략은 행동 조각 생성 작업에서 성능 향상을 크게 보여주었습니다.

코드 저장소

alibaba-damo-academy/worldvla
공식
pytorch
GitHub에서 언급됨

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
WorldVLA: 자동 회귀적 행동 세계 모델로의 진전 | 연구 논문 | HyperAI초신경