أول فيديو مفتوح المصدر في العالم لفينسنت DiT
ورق | صفحة المشروع
مقدمة المشروع
مع الإصدار الناجح لـ Sora، تلقى نموذج الفيديو DiT الكثير من الاهتمام والمناقشة. لقد كان تصميم الشبكات العصبية المستقرة واسعة النطاق دائمًا محورًا بحثيًا في مجال التوليد المرئي. لقد أتاح نجاح تقنية DiT إمكانية توسيع نطاق توليد الصور. Latte (محول الانتشار الكامن لتوليد الفيديو) هو نموذج مبتكر لتوليد الفيديو تم إتاحته كمصدر مفتوح في نوفمبر 2023. وباعتباره أول محول انتشار كامن لتوليد الفيديو في العالم مفتوح المصدر، حقق Latte نتائج واعدة.
يوضح هذا البرنامج التعليمي كيفية تنفيذ التأثير الخاص بمشروع Latte.
عرض التأثير

درس تعليمي
إنشاء نص مخصص إلى فيديو باستخدام Latte
1. استنساخ الحاوية وتشغيلها
2. افتح مساحة العمل واضبط موجه النص
افتح ملف التكوين على اليسار home/Latte/configs/t2v/t2v_sample.yaml
، انقر نقرًا مزدوجًا لفتح الملف، ثم عدّل النص الموجود أسفل text_prompt. وقد قدمت هذه المقالة أمثلة ذات صلة، كما هو موضح أدناه. بعد التعديل ctrl+S
يحفظ.

3. إنشاء الفيديو
افتح المحطة الطرفية واكتب:cd Latte/
تغيير الدليل،
اكتب في المحطة الطرفية:bash sample/t2v.sh
إنشاء فيديو عالي الدقة، وانتظر حتى ينتهي البرنامج من التشغيل، ثم Latte/sample_videos
النتائج التي تم إنشاؤها موجودة في الدليل، t2v_0000-.mp4 هو إجمالي فيديو نص المطالبة، وملفات .mp4 الأخرى هي مقاطع الفيديو التي تم إنشاؤها بواسطة مطالبة واحدة.
ملاحظة: لا يمكن عرض الفيديو الناتج مباشرة في الحاوية. يجب عليك النقر بزر الماوس الأيمن فوق الملف لتنزيل الفيديو على جهاز الكمبيوتر المحلي لديك لمشاهدته.
معلومات الكود الأخرى
كود استدلال لاتيه
يمكن لـ Latte الحصول على أربعة نماذج من خلال التدريب على أربع مجموعات بيانات قياسية لإنشاء الفيديو (FaceForensics، وSkyTimelapse، وUCF101، وTaichi-HD). سيقوم كل نموذج بإنشاء مقطع فيديو للمشهد المقابل. فيما يلي شرح للعملية: أولاً أدخل إلى المشروع، ثم افتح الطرفية وأدخل:cd Latte/
1. FaceForensics: كشف الوجوه من الصور الاصطناعية
اكتب في المحطة الطرفية:bash sample/ffs.sh
لتوليد وجه، بعد انتهاء البرنامج، Latte/test_ffs
التحقق من النتائج المولدة في الدليل.
ملاحظة: كل نتيجة تم إنشاؤها سوف تحل محل النتيجة السابقة.
2. SkyTimelapse: صور فوتوغرافية للسماء
اكتب في المحطة الطرفية:bash sample/sky.sh
لتوليد السماء، بعد انتهاء البرنامج، استخدم الزر الأيسر Latte/test_sky
إنشاء النتائج في الدليل وتنزيلها على جهاز الكمبيوتر المحلي لديك لعرضها.
3. UCF101: التعرف على الحركة في مقاطع فيديو الحركة الواقعية
اكتب في المحطة الطرفية:bash sample/ucf101.sh
لتوليد عمل حقيقي، بعد انتهاء البرنامج، Latte/test_UCF101
إنشاء النتائج في الدليل وتنزيلها على جهاز الكمبيوتر المحلي لديك لعرضها.
4. تايتشي-HD؛ إنشاء فيديو عالي الدقة
اكتب في المحطة الطرفية:bash sample/taichi.sh
لتوليد فيديو عالي الدقة، بعد اكتمال البرنامج، Latte/test_Taichi
إنشاء النتائج في الدليل وتنزيلها على جهاز الكمبيوتر المحلي لديك لعرضها.