لوميير: نموذج تشتت فراغي-زمني لإنشاء الفيديو

نقدم نموذج Lumiere — وهو نموذج توليد فيديو من نص يعتمد على التشتت (diffusion)، مصمم لتكوين مقاطع فيديو تُظهر حركات واقعية ومتنوعة ومتسلسلة، وهي واحدة من التحديات الأساسية في مجال توليد الفيديو. ولتحقيق ذلك، نقدّم بنية Space-Time U-Net التي تُولّد كامل المدة الزمنية للفيديو دفعة واحدة، عبر عملية واحدة فقط داخل النموذج. ويتناقض هذا مع النماذج الحالية التي تُولّد الإطارات الرئيسية البعيدة أولاً، ثم تُطبّق عملية تحسين التفاصيل الزمنية (temporal super-resolution)، وهي طريقة تجعل من الصعب تحقيق الاتساق الزمني على المستوى الكلي. وباستخدام التناقص والزيادة المكانية (والأهم من ذلك، الزمنية) مع الاستفادة من نموذج توليد صورة من نص مُدرّب مسبقًا، يتعلم نموذجنا توليد فيديو بدرجة دقة كاملة وذات دقة منخفضة مباشرةً من خلال معالجته على عدة مقياسين مكانيين وزمانيين. ونُظهر نتائج متميزة في توليد الفيديو من النص، ونُظهر أن تصميمنا يسهل بسهولة مجموعة واسعة من مهام إنشاء المحتوى والتطبيقات المتعلقة بتحرير الفيديو، بما في ذلك تحويل الصورة إلى فيديو، وتعبئة الفيديو (video inpainting)، وإنشاء مُصوّرات مُصممة بأسلوب معين (stylized generation).