الملخص

تهدف "يومي" إلى استخدام الصور أو النصوص أو الفيديوهات لإنشاء عالم تفاعلي وواقعي وديناميكي، مما يسمح بمستخدمين باستكشاف هذا العالم والتحكم فيه باستخدام أجهزة محيطة أو إشارات عصبية. في هذا التقرير، نقدم نسخة مقدمة من "الطريقة" (\method)، والتي تقوم بإنشاء عالم ديناميكي من صورة دخول واحدة، وتوفر إمكانية استكشاف هذا العالم باستخدام إجراءات لوحة المفاتيح. لاستخدام هذا الإنشاء لعالم الفيديو التفاعلي والدقيق، نقدم إطار عمل مصمم بشكل جيد، يتكون من أربعة مكونات رئيسية، تشمل تكميم حركة الكاميرا، معمارية إنشاء الفيديو، مُستخرج متقدم، وتسريع النموذج. أولاً، نقوم بتكميم حركة الكاميرا لضمان تدريب مستقر وتفاعل سهل مع المستخدم من خلال إدخالات لوحة المفاتيح. ثم نقدم "مُحول الفيديو المُحجب (MVDT)" مع وحدة ذاكرة لاستخدام الفيديو بشكل لا نهائي بطريقة تسلسلية (autoregressive). بعدها، نقوم بإدخال آلية "الحظر التلقائي للعيوب (AAM)" دون تدريب، و"العينة المبنية على المعادلات التفاضلية العشوائية (TTS-SDE)" إلى المستخرج لتحسين جودة الصورة وتحقيق سيطرة أكثر دقة. بالإضافة إلى ذلك، نقوم بدراسة تسريع النموذج من خلال تحسين تكاملي للتحفيز المضاد (adversarial distillation) وآليات التخزين المؤقت (caching). نستخدم مجموعة بيانات "الاستكشاف العالمي عالي الجودة" (\sekai) لتدريب "الطريقة" (\method)، وتحقيق نتائج مميزة في مواقف وتطبيقات متنوعة. جميع البيانات، وقاعدة الكود، وأوزان النموذج متاحة على https://github.com/stdstu12/YUME. سيتم تحديث "يومي" شهريًا لتحقيق هدفها الأصلي. صفحة المشروع: https://stdstu12.github.io/YUME-Project/.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار