HyperAI

يُنشئ Pyramid Flow عرضًا توضيحيًا للفيديو عالي الدقة في دقيقة واحدة

⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي

Pyramid Flow هو نموذج مفتوح المصدر لتوليد فيديو عالي الدقة تم إطلاقه في عام 2024 بواسطة فريق بحثي مشترك بين Kuaishou وجامعة بكين وجامعة بكين للبريد والاتصالات.مطابقة التدفق الهرمي للنمذجة التوليدية للفيديو بكفاءةيستطيع هذا النموذج إنتاج مقاطع فيديو عالية الجودة بحد أقصى 10 ثوانٍ، ودقة تصل إلى 1280×768، ومعدل إطارات يبلغ 24 إطارًا في الثانية، استنادًا إلى أوصاف النصوص. تعتمد تقنية Pyramid Flow الأساسية على خوارزمية مطابقة تدفق الهرم، والتي تُقسّم عملية إنتاج الفيديو إلى مراحل متعددة بدقة مختلفة، مما يُحسّن كفاءة الإنتاج وجودته.

يقدم هذا البرنامج التعليمي طريقة إنشاء فيديو انحداري ذاتي فعالة للتدريب تعتمد على مطابقة التدفق. من خلال التدريب فقط على مجموعات البيانات مفتوحة المصدر، يمكنه إنشاء مقاطع فيديو عالية الجودة مدتها 10 ثوانٍ بدقة 768 بكسل و24 إطارًا في الثانية، ويدعم بشكل طبيعي إنشاء الصور إلى الفيديو. يدعم هذا البرنامج التعليمي النماذج والوظائف التالية:

نقطتي تفتيش نموذجيتين:

  • 768 بكسل: يدعم ما يصل إلى 10 ثوانٍ من الفيديو بمعدل 24 إطارًا في الثانية
  • 384 بكسل: يدعم إنشاء مقاطع فيديو مدتها 5 ثوانٍ بمعدل 24 إطارًا في الثانية

وظيفتين:

  • فيديو فينسنت (text_to_video)
  • توليد الصورة إلى فيديو (image_to_video)

2. خطوات التشغيل

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

1. تحويل النص إلى فيديو (text_to_video)

يختار تحويل النص إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.

  • موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
  • المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
  • guidance_scale: التحكم في جودة الصورة. نقترح استخدام الإرشادات الموجودة في [7، 9] لنقطة التفتيش 768 بكسل و7 لنقطة التفتيش 384 بكسل أثناء إنشاء النص إلى فيديو.
  • video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 4 دقائق لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).  
الشكل 1: عرض توضيحي لوظيفة فيديو فينسنت

2. توليد الصور إلى فيديو (image_to_video)

يختار صورة إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.

  • input_image: تحميل الصورة الأصلية
  • موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
  • المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
  • video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 3 دقائق لإنشاء فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).
الشكل 2 فيديو توضيحي لتوليد الصور

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓