التاريخ

منذ عام واحد

الحجم

2.3 GB

الوسوم

GitHub

رابط الورقة البحثية

⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي

يُعدّ Pyramid Flow نموذجًا مفتوح المصدر لتوليد فيديوهات فائقة الوضوح، أُطلق عام 2024 من قِبل فريق بحثي مشترك بين Kuaishou وجامعة بكين وجامعة بكين للبريد والاتصالات. وتشمل الأبحاث ذات الصلة... مطابقة التدفق الهرمي للنمذجة التوليدية للفيديو بكفاءة يستطيع هذا النموذج إنتاج فيديوهات عالية الجودة تصل مدتها إلى 10 ثوانٍ بدقة تصل إلى 1280×768 ومعدل إطارات 24 إطارًا في الثانية، وذلك بالاعتماد على وصف نصي. وتعتمد تقنية Pyramid Flow الأساسية على خوارزمية مطابقة تدفق البيانات الهرمية، التي تُقسّم عملية إنتاج الفيديو إلى مراحل متعددة بدقة مختلفة، مما يُحسّن كفاءة الإنتاج وجودته.

يقدم هذا البرنامج التعليمي طريقة إنشاء فيديو انحداري ذاتي فعالة للتدريب تعتمد على مطابقة التدفق. من خلال التدريب فقط على مجموعات البيانات مفتوحة المصدر، يمكنه إنشاء مقاطع فيديو عالية الجودة مدتها 10 ثوانٍ بدقة 768 بكسل و24 إطارًا في الثانية، ويدعم بشكل طبيعي إنشاء الصور إلى الفيديو. يدعم هذا البرنامج التعليمي النماذج والوظائف التالية:

نقطتي تفتيش نموذجيتين:

768 بكسل: يدعم ما يصل إلى 10 ثوانٍ من الفيديو بمعدل 24 إطارًا في الثانية
384 بكسل: يدعم إنشاء مقاطع فيديو مدتها 5 ثوانٍ بمعدل 24 إطارًا في الثانية

وظيفتين:

فيديو فينسنت (text_to_video)
توليد الصورة إلى فيديو (image_to_video)

2. خطوات التشغيل

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

1. تحويل النص إلى فيديو (text_to_video)

يختار تحويل النص إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.

موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
guidance_scale: التحكم في جودة الصورة. نقترح استخدام الإرشادات الموجودة في [7، 9] لنقطة التفتيش 768 بكسل و7 لنقطة التفتيش 384 بكسل أثناء إنشاء النص إلى فيديو.
video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 4 دقائق لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).

2. توليد الصور إلى فيديو (image_to_video)

يختار صورة إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.

input_image: تحميل الصورة الأصلية
موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 3 دقائق لإنشاء فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ عام واحد

الحجم

2.3 GB

الوسوم

GitHub

رابط الورقة البحثية

⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي

نقطتي تفتيش نموذجيتين:

768 بكسل: يدعم ما يصل إلى 10 ثوانٍ من الفيديو بمعدل 24 إطارًا في الثانية
384 بكسل: يدعم إنشاء مقاطع فيديو مدتها 5 ثوانٍ بمعدل 24 إطارًا في الثانية

وظيفتين:

فيديو فينسنت (text_to_video)
توليد الصورة إلى فيديو (image_to_video)

2. خطوات التشغيل

بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

1. تحويل النص إلى فيديو (text_to_video)

يختار تحويل النص إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.

موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
guidance_scale: التحكم في جودة الصورة. نقترح استخدام الإرشادات الموجودة في [7، 9] لنقطة التفتيش 768 بكسل و7 لنقطة التفتيش 384 بكسل أثناء إنشاء النص إلى فيديو.
video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 4 دقائق لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء مقطع فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).

2. توليد الصور إلى فيديو (image_to_video)

يختار صورة إلى فيديو الوظيفة، أدخل الكلمات المطلوبة والإعدادات ذات الصلة كما هو مطلوب أدناه.

input_image: تحميل الصورة الأصلية
موجه: موجه نصي يستخدم كدليل لإنشاء الفيديو. لاحظ أنه لا يمكن أن يتجاوز 128 حرفًا.
المدة: طول الفيديو المُولّد، المدة=16: 5 ثوانٍ، المدة=31: 10 ثوانٍ.
video_guidance_scale: التحكم في الحركة. تعمل القيم الأكبر على زيادة كمية الديناميكيات والتخفيف من تدهور الجيل الانحداري التلقائي، بينما تعمل القيم الأصغر على تثبيت الفيديو. بالنسبة لإنشاء فيديو مدته 10 ثوانٍ، نوصي باستخدام مقياس إرشادي مكون من 7 مستويات ومقياس إرشادي فيديو مكون من 5 مستويات. بعد الاختبار، يستغرق الأمر حوالي 3 دقائق لإنشاء فيديو مدته 5 ثوانٍ باستخدام نقطة تفتيش 768 بكسل (نموذج أكبر)، وحوالي دقيقتين لإنشاء فيديو مدته 5 ثوانٍ باستخدام نموذج 384 بكسل (نموذج أصغر).

التبادل والمناقشة

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

نيموترون - بث الكلام - التعرف التلقائي على الكلام

منذ 21 أيام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

منذ 19 أيام

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

يُنشئ Pyramid Flow عرضًا توضيحيًا للفيديو عالي الدقة في دقيقة واحدة

⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

1. تحويل النص إلى فيديو (text_to_video)

2. توليد الصور إلى فيديو (image_to_video)

التبادل والمناقشة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

يُنشئ Pyramid Flow عرضًا توضيحيًا للفيديو عالي الدقة في دقيقة واحدة

⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

1. تحويل النص إلى فيديو (text_to_video)

2. توليد الصور إلى فيديو (image_to_video)

التبادل والمناقشة

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

يُنشئ Pyramid Flow عرضًا توضيحيًا للفيديو عالي الدقة في دقيقة واحدة

⚡️تدفق الهرم⚡️: نموذج توليد فيديو انحداري ذاتي عالي الكفاءة في التدريب يعتمد على مطابقة التدفق

1. مقدمة البرنامج التعليمي

2. خطوات التشغيل

1. تحويل النص إلى فيديو (text_to_video)

2. توليد الصور إلى فيديو (image_to_video)

التبادل والمناقشة

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX