HyperAI

دروس تعليمية عبر الإنترنت丨مشابهة للطريق الفني لسورا! أول نموذج DiT مفتوح المصدر في العالم لفيديو Vincent، يتم نشر Latte بنقرة واحدة

特色图像

منذ أن أطلقت OpenAI تطبيق Sora، اجتذب مفهوم "الفيديو الكلاسيكي" والتطبيقات ذات الصلة الكثير من الاهتمام. مع شعبية سورا،كانت التكنولوجيا الرئيسية وراء ذلك، DiT (محولات الانتشار)، قد تم "التنقيب عنها أثريًا".

في الواقع، DiT هو نموذج بياني نصي تم فتح مصدره منذ عامين. مطوروها هم Peebles وXie Saining، ومن بينهم Peebles أيضًا أحد قادة مشروع Sora.

قبل اقتراح نموذج DiT، سيطرت Transformer تقريبًا على مجال معالجة اللغة الطبيعية بفضل قدراتها القوية على استخراج الميزات وفهم السياق. تتميز U-Net بهندستها المعمارية الفريدة وأدائها المتفوق، وهي تهيمن على مجال نماذج توليد الصور وانتشارها. الميزة الأكبر لـ DiT هي أنها تحل محل بنية U-Net في نموذج الانتشار ببنية المحول.ومن المثير للاهتمام أن هذا العمل تم رفضه من قبل CVPR في عام 2023 بسبب الافتقار إلى الابتكار.

بالمقارنة مع U-Net، يتمتع Transformer بقدرة توسع أفضل. يمكنه تعلم التبعيات العالمية والتعامل مع مشاكل التبعيات بعيدة المدى في بيانات التسلسل من خلال آلية الاهتمام الذاتي. إنها تتمتع بمزايا كبيرة في معالجة ميزات الصورة العالمية. بالإضافة إلى ذلك، حققت تقنية DiT المستندة إلى بنية المحول أيضًا تحسينات كبيرة في الكفاءة الحسابية وتأثيرات التوليد، مما عزز بشكل أكبر التطبيق واسع النطاق لتوليد الصور.

ومع ذلك، نظرًا للهيكل العالي وتعقيد بيانات الفيديو، فإن توسيع نطاق DiT إلى مجال إنشاء الفيديو يمثل تحديًا. في هذا الصدد،قام فريق بحثي من مختبر الذكاء الاصطناعي في شنغهاي بإصدار أول فيديو فينيل في العالم مفتوح المصدر DiT:Latte في نهاية عام 2023. وباعتباره نموذجًا تم تطويره ذاتيًا بتقنية مماثلة لـ Sora، يمكن نشر Latte بحرية.بالنسبة لأولئك الذين يريدون استكشاف تقنية فيديو فينسنت، فإن برنامج Latte مفتوح المصدر يوفر بلا شك فرصة للتدرب.

هيكل نموذج لاتيه ومتغيراته الأربعة (أ، ب، ج، د)

أولاً، يقوم Latte بترميز فيديو الإدخال إلى ميزات في المساحة الكامنة من خلال مشفر ذاتي متغير مدرب مسبقًا (VAE) ويستخرج الرموز منه. بعد ذلك، يتم ترميز هذه الرموز وفك تشفيرها باستخدام بنية المحول المقابلة في أحد المتغيرات المذكورة أعلاه. أثناء عملية التوليد، سيستعيد النموذج تدريجيًا تمثيل إطار الفيديو منخفض الضوضاء في المساحة الكامنة استنادًا إلى عملية الانتشار الخلفي المكتسبة، وأخيرًا إعادة بنائه إلى محتوى فيديو مستمر وواقعي.

ومن الجدير بالذكر أن مختبر الذكاء الاصطناعي في شنغهاي، وهو فريق البحث والتطوير وراء Latte، قد عمل مع محطة الإذاعة والتلفزيون المركزية الصينيةأطلقوا معًا أول سلسلة رسوم متحركة صينية أصلية بتقنية الذكاء الاصطناعي من إنتاج شركة Wensheng بعنوان "قصائد الألف عام"، والتي تم بثها على قناة CCTV-1 الشاملة.وحلل المطلعون على الصناعة أنه مع إطلاق أول رسوم متحركة بالذكاء الاصطناعي في الصين، من المتوقع أن يتسارع تنفيذ تطبيقات الفيديو الثقافي في بلدي، مما قد يعيد تشكيل عملية إنتاج صناعة السينما والتلفزيون في المستقبل ويعزز التطور الثوري لإنتاج الرسوم المتحركة السينمائية والتلفزيونية وتطوير الألعاب وتصميم الإعلانات.

وفي هذا السياق، ومن أجل مساعدة المزيد من العاملين المبدعين وعشاق الفيديو على مواكبة اتجاه التكنولوجيا،أطلقت شركة HyperAI برنامج تعليمي بعنوان "أول فيديو Vincent Video DiT مفتوح المصدر في عالم Latte".لقد قام هذا البرنامج التعليمي ببناء بيئة لك. لم يعد عليك الانتظار حتى يتم تنزيل النموذج وتدريبه. ما عليك سوى النقر فوق "استنساخ" لبدء تشغيله بنقرة واحدة، وإدخال النص لتوليد مقطع فيديو على الفور!

عنوان البرنامج التعليمي:https://hyper.ai/tutorials/32065

استخدم المحرر النص "كلب يرتدي نظارة شمسية" لإنشاء مقطع فيديو لجرو يرتدي نظارة شمسية. إنه يبدو وسيمًا جدًا!

غلاف GIF

تشغيل تجريبي

1. قم بتسجيل الدخول إلى hyper.ai، في صفحة "البرامج التعليمية"، حدد "Latte World's First Open Source Vinyl Video DiT"، وانقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت".

2. بعد الانتقال إلى الصفحة التالية، انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. انقر فوق "التالي: حدد معدل التجزئة" في الزاوية اليمنى السفلية.

4. بعد القفزة، حدد "NVIDIA GeForce RTX 4090" وانقر فوق "التالي: المراجعة".يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت فراغ وحدة المعالجة المركزية!

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

5. انقر فوق "متابعة" وانتظر حتى يتم تخصيص الموارد. ستستغرق عملية الاستنساخ الأولى حوالي 3-5 دقائق. عندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل".

إذا استمرت المشكلة لأكثر من 10 دقائق وكان النظام لا يزال في حالة "تخصيص الموارد"، فحاول إيقاف الحاوية وإعادة تشغيلها. إذا لم تؤد إعادة التشغيل إلى حل المشكلة، فيرجى الاتصال بخدمة عملاء المنصة على الموقع الرسمي.

6. بعد فتح مساحة العمل، افتح ملف التكوين home/Latte/configs/t2v/t2v_sample.yaml وفقًا للمسار الموجود في القائمة اليسرى، وأدخل موجه الأوامر "على سبيل المثال: كلب يرتدي نظارة شمسية" ضمن text_prompt، واحفظه باستخدام Ctrl+S.

7. بعد الحفظ، قم بإنشاء صفحة طرفية جديدة، وأدخل "cd Latte" واضغط على Enter للدخول إلى دليل "Latte". أدخل "bash sample/t2v.sh" لتوليد فيديو عالي الدقة.

عرض التأثير
1. عندما يظهر شريط التقدم 100%، افتح شريط القائمة الأيسر "Latte/sample_videos"، وابحث عن الفيديو الذي أنشأناه، وانقر بزر الماوس الأيمن للتنزيل.يرجى ملاحظة أن مقاطع الفيديو بتنسيق MP4 لا يمكن مشاهدتها مباشرة ويجب تنزيلها قبل مشاهدتها.

2. يتم إنشاء مقطع فيديو لجرو يرتدي نظارة شمسية!

غلاف GIF

في الوقت الحاضر، أطلق الموقع الرسمي لـ HyperAI مئات من البرامج التعليمية المختارة المتعلقة بالتعلم الآلي، والتي تم تنظيمها في شكل Jupyter Notebook.

انقر على الرابط للبحث عن الدروس ومجموعات البيانات ذات الصلة:https://hyper.ai/tutorials

ما سبق هو كل المحتوى الذي تمت مشاركته بواسطة HyperAI Super Neural Network هذه المرة. إذا رأيت مشاريع عالية الجودة، يرجى ترك رسالة في الخلفية لتوصيتها لنا! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس "مجموعة تبادل الدروس التعليمية للانتشار المستقر". نرحب بالأصدقاء للانضمام إلى المجموعة لمناقشة القضايا الفنية المختلفة ومشاركة نتائج التطبيق ~