概要

Yumeは、画像、テキスト、または動画を用いて、周辺機器や神経信号を介して探索や操作が可能な、インタラクティブで現実的かつダイナミックな世界を構築することを目指しています。本報告では、入力画像からダイナミックな世界を生成し、キーボード操作により世界を探索できるプレビュー版の\methodを紹介します。この高精度でインタラクティブな動画世界生成を実現するため、カメラの動きの量子化、動画生成アーキテクチャ、高度なサンプラー、モデルの高速化という4つの主要なコンポーネントからなる、設計の整ったフレームワークを導入しました。まず、キーボード入力によるユーザーインターフェースを整えるためにカメラの動きを量子化します。次に、自己回帰的な方法で無限に動画を生成できるメモリモジュールを備えたマスク付きビデオ拡散トランスフォーマー（Masked Video Diffusion Transformer：MVDT）を紹介します。その後、視覚的品質の向上とより正確な操作性の実現のために、トレーニング不要のアーティファクト防止機構（Training-free Anti-Artifact Mechanism：AAM）と、確率微分方程式に基づくタイムトラベルサンプル（Time Travel Sampling based on Stochastic Differential Equations：TTS-SDE）をサンプラーに導入します。さらに、敵対的蒸留（adversarial distillation）とキャッシュ機構の協調的な最適化により、モデルの高速化を検討しました。\methodは、高品質な世界探索データセット\sekaiを用いてトレーニングされており、多様なシナリオやアプリケーションにおいて優れた結果を達成しています。すべてのデータ、コードベース、モデルの重みは、https://github.com/stdstu12/YUME で公開されています。Yumeは毎月更新され、当初の目標を達成するための進化を遂げていきます。プロジェクトページ：https://stdstu12.github.io/YUME-Project/。

ソースPDF コードを表示