초록

Yume는 이미지, 텍스트 또는 영상을 사용하여, 주변 장치나 신경 신호를 통해 탐색 및 제어가 가능한 상호작용적이고 현실적이며 동적인 세계를 생성하려는 목표를 가지고 있습니다. 본 보고서에서는 입력 이미지로부터 동적인 세계를 생성하고 키보드 조작을 통해 세계를 탐색할 수 있는 \method의 프리뷰 버전을 제시합니다. 이러한 고해상도이고 상호작용 가능한 동영상 세계 생성을 위해, 카메라 움직임의 양자화, 영상 생성 아키텍처, 고급 샘플러, 모델 가속화를 포함하는 잘 설계된 프레임워크를 도입합니다. 먼저, 키보드 입력을 통한 안정적인 학습과 사용자 친화적인 상호작용을 위해 카메라 움직임을 양자화합니다. 다음으로, 자동회귀 방식으로 무한한 영상을 생성하기 위한 메모리 모듈을 갖춘 Masked Video Diffusion Transformer~(MVDT)를 제시합니다. 이후, 샘플러에 더하여 훨씬 더 나은 시각적 품질과 정확한 제어를 위해 학습 없는 Anti-Artifact Mechanism (AAM)과 확률적 미분 방정식 기반의 Time Travel Sampling (TTS-SDE)을 도입합니다. 또한, 적대적 증류와 캐싱 기법의 협력적 최적화를 통해 모델 가속화를 탐구합니다. 우리는 고품질의 세계 탐색 데이터셋 \sekai를 사용하여 \method를 학습시켰으며, 다양한 장면과 응용 분야에서 놀라운 결과를 달성했습니다. 모든 데이터, 코드베이스 및 모델 가중치는 https://github.com/stdstu12/YUME에서 제공됩니다. Yume는 월간 갱신을 통해 원래 목표를 달성할 계획입니다. 프로젝트 페이지: https://stdstu12.github.io/YUME-Project/.

소스 PDF 코드 보기