Command Palette
Search for a command to run...
يُنشئ Pyramid Flow عرضًا توضيحيًا للفيديو عالي الدقة في دقيقة واحدة
Date
Size
2.3 GB
GitHub
Paper URL
⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي
يُعدّ Pyramid Flow نموذجًا مفتوح المصدر لتوليد فيديوهات فائقة الوضوح، أُطلق عام 2024 من قِبل فريق بحثي مشترك بين Kuaishou وجامعة بكين وجامعة بكين للبريد والاتصالات. وتشمل الأبحاث ذات الصلة... مطابقة التدفق الهرمي للنمذجة التوليدية للفيديو بكفاءة يستطيع هذا النموذج إنتاج فيديوهات عالية الجودة تصل مدتها إلى 10 ثوانٍ بدقة تصل إلى 1280×768 ومعدل إطارات 24 إطارًا في الثانية، وذلك بالاعتماد على وصف نصي. وتعتمد تقنية Pyramid Flow الأساسية على خوارزمية مطابقة تدفق البيانات الهرمية، التي تُقسّم عملية إنتاج الفيديو إلى مراحل متعددة بدقة مختلفة، مما يُحسّن كفاءة الإنتاج وجودته.
يقدم هذا البرنامج التعليمي طريقة إنشاء فيديو انحداري ذاتي فعالة للتدريب تعتمد على مطابقة التدفق. من خلال التدريب فقط على مجموعات البيانات مفتوحة المصدر، يمكنه إنشاء مقاطع فيديو عالية الجودة مدتها 10 ثوانٍ بدقة 768 بكسل و24 إطارًا في الثانية، ويدعم بشكل طبيعي إنشاء الصور إلى الفيديو. يدعم هذا البرنامج التعليمي النماذج والوظائف التالية:
نقطتي تفتيش نموذجيتين:
- 768 بكسل: يدعم ما يصل إلى 10 ثوانٍ من الفيديو بمعدل 24 إطارًا في الثانية
- 384 بكسل: يدعم إنشاء مقاطع فيديو مدتها 5 ثوانٍ بمعدل 24 إطارًا في الثانية
وظيفتين:
- فيديو فينسنت (text_to_video)
- توليد الصورة إلى فيديو (image_to_video)
2. خطوات التشغيل
بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

1. تحويل النص إلى فيديو (text_to_video)
يختار تحويل النص إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.
- موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
- المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
- guidance_scale: التحكم في جودة الصورة. نقترح استخدام الإرشادات الموجودة في [7، 9] لنقطة التفتيش 768 بكسل و7 لنقطة التفتيش 384 بكسل أثناء إنشاء النص إلى فيديو.
- video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 4 دقائق لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).


2. توليد الصور إلى فيديو (image_to_video)
يختار صورة إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.
- input_image: تحميل الصورة الأصلية
- موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
- المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
- video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 3 دقائق لإنشاء فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).


التبادل والمناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.