HyperAIHyperAI

Command Palette

Search for a command to run...

لوميير: نموذج تشتت فراغي-زمني لإنشاء الفيديو

الملخص

نقدم نموذج Lumiere — وهو نموذج توليد فيديو من نص يعتمد على التشتت (diffusion)، مصمم لتكوين مقاطع فيديو تُظهر حركات واقعية ومتنوعة ومتسلسلة، وهي واحدة من التحديات الأساسية في مجال توليد الفيديو. ولتحقيق ذلك، نقدّم بنية Space-Time U-Net التي تُولّد كامل المدة الزمنية للفيديو دفعة واحدة، عبر عملية واحدة فقط داخل النموذج. ويتناقض هذا مع النماذج الحالية التي تُولّد الإطارات الرئيسية البعيدة أولاً، ثم تُطبّق عملية تحسين التفاصيل الزمنية (temporal super-resolution)، وهي طريقة تجعل من الصعب تحقيق الاتساق الزمني على المستوى الكلي. وباستخدام التناقص والزيادة المكانية (والأهم من ذلك، الزمنية) مع الاستفادة من نموذج توليد صورة من نص مُدرّب مسبقًا، يتعلم نموذجنا توليد فيديو بدرجة دقة كاملة وذات دقة منخفضة مباشرةً من خلال معالجته على عدة مقياسين مكانيين وزمانيين. ونُظهر نتائج متميزة في توليد الفيديو من النص، ونُظهر أن تصميمنا يسهل بسهولة مجموعة واسعة من مهام إنشاء المحتوى والتطبيقات المتعلقة بتحرير الفيديو، بما في ذلك تحويل الصورة إلى فيديو، وتعبئة الفيديو (video inpainting)، وإنشاء مُصوّرات مُصممة بأسلوب معين (stylized generation).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp