HyperAI
منذ 8 أيام

يويم: نموذج توليد عالم تفاعلي

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang
يويم: نموذج توليد عالم تفاعلي
الملخص

تهدف "يومي" إلى استخدام الصور أو النصوص أو الفيديوهات لإنشاء عالم تفاعلي وواقعي وديناميكي، مما يسمح بمستخدمين باستكشاف هذا العالم والتحكم فيه باستخدام أجهزة محيطة أو إشارات عصبية. في هذا التقرير، نقدم نسخة مقدمة من "الطريقة" (\method)، والتي تقوم بإنشاء عالم ديناميكي من صورة دخول واحدة، وتوفر إمكانية استكشاف هذا العالم باستخدام إجراءات لوحة المفاتيح. لاستخدام هذا الإنشاء لعالم الفيديو التفاعلي والدقيق، نقدم إطار عمل مصمم بشكل جيد، يتكون من أربعة مكونات رئيسية، تشمل تكميم حركة الكاميرا، معمارية إنشاء الفيديو، مُستخرج متقدم، وتسريع النموذج. أولاً، نقوم بتكميم حركة الكاميرا لضمان تدريب مستقر وتفاعل سهل مع المستخدم من خلال إدخالات لوحة المفاتيح. ثم نقدم "مُحول الفيديو المُحجب (MVDT)" مع وحدة ذاكرة لاستخدام الفيديو بشكل لا نهائي بطريقة تسلسلية (autoregressive). بعدها، نقوم بإدخال آلية "الحظر التلقائي للعيوب (AAM)" دون تدريب، و"العينة المبنية على المعادلات التفاضلية العشوائية (TTS-SDE)" إلى المستخرج لتحسين جودة الصورة وتحقيق سيطرة أكثر دقة. بالإضافة إلى ذلك، نقوم بدراسة تسريع النموذج من خلال تحسين تكاملي للتحفيز المضاد (adversarial distillation) وآليات التخزين المؤقت (caching). نستخدم مجموعة بيانات "الاستكشاف العالمي عالي الجودة" (\sekai) لتدريب "الطريقة" (\method)، وتحقيق نتائج مميزة في مواقف وتطبيقات متنوعة. جميع البيانات، وقاعدة الكود، وأوزان النموذج متاحة على https://github.com/stdstu12/YUME. سيتم تحديث "يومي" شهريًا لتحقيق هدفها الأصلي. صفحة المشروع: https://stdstu12.github.io/YUME-Project/.