HyperAIHyperAI

Command Palette

Search for a command to run...

ユメ:インタラクティブな世界生成モデル

Xiaofeng Mao Shaoheng Lin Zhen Li Chuanhao Li Wenshuo Peng Tong He Jiangmiao Pang Mingmin Chi Yu Qiao Kaipeng Zhang

概要

Yumeは、画像、テキスト、または動画を用いて、周辺機器や神経信号を介して探索や操作が可能な、インタラクティブで現実的かつダイナミックな世界を構築することを目指しています。本報告では、入力画像からダイナミックな世界を生成し、キーボード操作により世界を探索できるプレビュー版の\methodを紹介します。この高精度でインタラクティブな動画世界生成を実現するため、カメラの動きの量子化、動画生成アーキテクチャ、高度なサンプラー、モデルの高速化という4つの主要なコンポーネントからなる、設計の整ったフレームワークを導入しました。まず、キーボード入力によるユーザーインターフェースを整えるためにカメラの動きを量子化します。次に、自己回帰的な方法で無限に動画を生成できるメモリモジュールを備えたマスク付きビデオ拡散トランスフォーマー(Masked Video Diffusion Transformer:MVDT)を紹介します。その後、視覚的品質の向上とより正確な操作性の実現のために、トレーニング不要のアーティファクト防止機構(Training-free Anti-Artifact Mechanism:AAM)と、確率微分方程式に基づくタイムトラベルサンプル(Time Travel Sampling based on Stochastic Differential Equations:TTS-SDE)をサンプラーに導入します。さらに、敵対的蒸留(adversarial distillation)とキャッシュ機構の協調的な最適化により、モデルの高速化を検討しました。\methodは、高品質な世界探索データセット\sekaiを用いてトレーニングされており、多様なシナリオやアプリケーションにおいて優れた結果を達成しています。すべてのデータ、コードベース、モデルの重みは、https://github.com/stdstu12/YUME で公開されています。Yumeは毎月更新され、当初の目標を達成するための進化を遂げていきます。プロジェクトページ:https://stdstu12.github.io/YUME-Project/


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ユメ:インタラクティブな世界生成モデル | 記事 | HyperAI超神経