8일 전

유메: 인터랙티브 월드 생성 모델

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

논문 세부 정보 보기 View Code

초록

Yume는 이미지, 텍스트 또는 영상을 사용하여, 주변 장치나 신경 신호를 통해 탐색 및 제어가 가능한 상호작용적이고 현실적이며 동적인 세계를 생성하려는 목표를 가지고 있습니다. 본 보고서에서는 입력 이미지로부터 동적인 세계를 생성하고 키보드 조작을 통해 세계를 탐색할 수 있는 \method의 프리뷰 버전을 제시합니다. 이러한 고해상도이고 상호작용 가능한 동영상 세계 생성을 위해, 카메라 움직임의 양자화, 영상 생성 아키텍처, 고급 샘플러, 모델 가속화를 포함하는 잘 설계된 프레임워크를 도입합니다. 먼저, 키보드 입력을 통한 안정적인 학습과 사용자 친화적인 상호작용을 위해 카메라 움직임을 양자화합니다. 다음으로, 자동회귀 방식으로 무한한 영상을 생성하기 위한 메모리 모듈을 갖춘 Masked Video Diffusion Transformer~(MVDT)를 제시합니다. 이후, 샘플러에 더하여 훨씬 더 나은 시각적 품질과 정확한 제어를 위해 학습 없는 Anti-Artifact Mechanism (AAM)과 확률적 미분 방정식 기반의 Time Travel Sampling (TTS-SDE)을 도입합니다. 또한, 적대적 증류와 캐싱 기법의 협력적 최적화를 통해 모델 가속화를 탐구합니다. 우리는 고품질의 세계 탐색 데이터셋 \sekai를 사용하여 \method를 학습시켰으며, 다양한 장면과 응용 분야에서 놀라운 결과를 달성했습니다. 모든 데이터, 코드베이스 및 모델 가중치는 https://github.com/stdstu12/YUME에서 제공됩니다. Yume는 월간 갱신을 통해 원래 목표를 달성할 계획입니다. 프로젝트 페이지: https://stdstu12.github.io/YUME-Project/.