HyperAI

دروس تعليمية عبر الإنترنت | إطلاق بديل مفتوح المصدر لبرنامج Sora بنقرة واحدة، واستقطاب 450 ألف مطور ذكاء اصطناعي

特色图像

في عام 1888، قدم إديسون براءة اختراع لجهاز "عرض الصور المتحركة"، وهو جهاز قام لأول مرة بعرض صور ثابتة بشكل مستمر، مما أدى إلى إنشاء تأثير الصورة الديناميكية، وبالتالي فتح المجال لتطوير الفيديو.

بالنظر إلى التاريخ، فقد مر الفيديو بتكرارات من لا شيء إلى شيء، ومن الأبيض والأسود إلى اللون، ومن الإشارات التناظرية إلى الإشارات الرقمية. في الماضي، كان إنتاج الفيديو يتضمن خطوات متعددة مثل إنشاء السيناريو/النص، والتصوير، والمونتاج، والدبلجة، والمراجعة. وإلى يومنا هذا، لا يزال كل شيء، بدءاً من مقاطع الفيديو الشهيرة على منصات الفيديو القصيرة وحتى الأفلام ذات الميزانيات الكبيرة التي تُعرض في دور العرض، يتبع هذا الشكل الإنتاجي الطويل.

في السنوات الأخيرة، ومع ظهور الذكاء الاصطناعي التوليدي، أدى إنتاج الفيديو أيضًا إلى إدخال الابتكار.منذ ظهور ChatGPT، جلبت قدرة الذكاء الاصطناعي التوليدي في فهم النصوص مفاجآت متكررة.

في 26 فبراير، أطلقت شركة OpenAI نموذج Sora، الذي يمكنه إنشاء ما يصل إلى دقيقة واحدة من الفيديو من خلال تلقي تعليمات نصية. لا يمتلك الذكاء الاصطناعي القدرة على فهم النصوص الطويلة فحسب، بل يمكنه أيضًا فهم ومحاكاة المواقف المادية في العالم الحقيقي، وإنشاء مشاهد معقدة مع شخصيات متعددة وأنواع محددة من الحركة منطقية وواقعية.ومع ذلك، أصدرت OpenAI مقطع فيديو توضيحيًا لنموذج Sora فقط، ولم يتم منح حق الوصول إليه إلا لعدد صغير من الباحثين والمبدعين.

وفي الوقت نفسه، أصبحت الآن نماذج فيديو متعددة مفتوحة المصدر تم إنشاؤها بواسطة الذكاء الاصطناعي متاحة للاستخدام المجاني. قدم Jack-Cui، وهو أحد المشرفين المشهورين على Bilibili، في برنامجه التعليمي بالفيديو أن أفضل حل لإنشاء فيديو الذكاء الاصطناعي مفتوح المصدر حاليًا هو مزيج من Stable Diffusion + Prompt Travel + AnimateDiff.

من بينها، يعتبر Stable Diffusion "نموذج انتشار كامن" يقوم أولاً بربط البيانات الأصلية عالية الأبعاد (مثل الصور) بالمساحة الكامنة من خلال المشفر، ويقوم بنشرها وإزالة الضوضاء منها في هذه المساحة، ثم يعيد بناء البيانات المنظفة في المساحة الكامنة إلى المساحة عالية الأبعاد من خلال المشفر.النتيجة النهائية هي إنشاء صورة ثابتة مقابلة وفقًا لتعليمات النص.

بالمقارنة مع نموذج الانتشار السائد الحالي في مجال إنشاء فيديو الذكاء الاصطناعي، يقدم Stable Diffusion مرحلة إضافية للترميز وفك التشفير، مما يسمح بتطبيقه على البيانات عالية الأبعاد (مثل الصور) في مساحة كامنة منخفضة الأبعاد تحتوي على ميزات مهمة للبيانات الأصلية.تم تحسين كفاءة وجودة إنتاج النموذج.

السفر الفوري هو تعديلتعليمات نصيةبهذه الطريقة، يمكن للمستخدمين تقديم كلمات رئيسية وأوصاف مختلفة في جداول زمنية مختلفة للفيديو وفقًا لنواياهم الإبداعية، مما يوجه نموذج الذكاء الاصطناعي لتوليد سلسلة من الصور المتماسكة والمتغيرة.

أخيرًا، يضيف AnimateDiff عنصرًا تم تهيئته حديثًاوحدة نمذجة الحركةواستخدم مجموعة بيانات مقطع الفيديو لتدريب المعرفة المسبقة للحركة المعقولة. بمجرد تدريب وحدة الحركة، يتم إدراجها في نموذج الرسم البياني القائم على النص، مما يتيح للنموذج إنشاء مقاطع فيديو نصية متنوعة ومخصصة.

حاليًا، تم إطلاق البرنامج التعليمي لنشر النموذج على الموقع الرسمي لـ HyperAI، ويمكنك استنساخه بنقرة واحدة.

https://hyper.ai/tutorials/30038

"البرنامج التعليمي عبر الإنترنت "Stable-Diffusion" الذي أنتجه Jack-Cui، وهو أحد أساتذة Up المشهورين على Bilibili، هو كما يلي. سوف يعلمك هذا البرنامج التعليمي خطوة بخطوة كيفية إتقان الرسم بالذكاء الاصطناعي ومقاطع الفيديو التي يتم إنشاؤها بواسطة الذكاء الاصطناعي بنقرة واحدة فقط!

الملك القنبلة! استنساخ الصوت بالذكاء الاصطناعي + استبدال Sora مفتوح المصدر بنقرة واحدة، الأسهل على الشبكة بأكملها! _بيليبيلي_بيليبيلي

وفقًا للبرنامج التعليمي، نجح المحرر في إنشاء العديد من الصور ومقاطع الفيديو الجميلة، والتأثير مذهل ببساطة!

تشغيل تجريبي

1. انقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت" للانتقال إلى OpenBayes للحصول على RTX 4090 مجانًا.

2. انقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

3. انقر فوق "مراجعة وتنفيذ" - "متابعة التنفيذ". يوصى باستخدام RTX 4090. يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت الحوسبة المجاني لوحدة المعالجة المركزية!

رابط الدعوة:

https://openbayes.com/console/signup?r=GraceXiii_W8qO

4. انتظر قليلاً، وعندما تتغير الحالة إلى "قيد التشغيل"، انقر فوق "فتح مساحة العمل". تحتوي الحاوية على كمية كبيرة من البيانات. يستغرق تشغيل الحاوية للمرة الأولى حوالي 8-10 دقائق. يرجى التحلي بالصبر.

إذا ظلت الحاوية في حالة "تخصيص الموارد" لأكثر من 15 دقيقة، فيمكنك محاولة إيقاف الحاوية وإعادة تشغيلها؛ إذا لم تتمكن من حل المشكلة بعد إعادة التشغيل، فيرجى الاتصال بخدمة عملاء المنصة على الموقع الرسمي.

5. بعد فتح مساحة العمل، انقر فوق "run.ipynb" على اليسار، ثم انقر فوق "تشغيل جميع الخلايا" من خلال زر "تشغيل" في شريط القائمة.

6. انتظر لفترة من الوقت، وبعد إنشاء عنوان URL المحلي، افتح "عنوان API" على اليمين. يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

1. بعد فتح "عنوان API"، أدخل كلمة المطالبة باللغة الإنجليزية في مربع النص وانقر فوق "إنشاء". يستغرق الأمر ثانية واحدة فقط لإنشاء الصورة بسرعة.

2. إذا كنت تريد إنشاء مقطع فيديو، فأنت بحاجة إلى إدخال كلمة المطالبة باللغة الإنجليزية، وتحديد البرنامج الإضافي AnimateDiff، وملء عدد الإطارات المولدة بـ 32 إطارًا، وترك المعلمات الأخرى كما هي افتراضية. انتظر لحظة، وسوف تتمكن من إنشاء الصورة المتحركة أو الفيديو.

في الوقت الحاضر، أطلق الموقع الرسمي لـ HyperAI مئات من البرامج التعليمية المختارة المتعلقة بالتعلم الآلي، والتي تم تنظيمها في شكل Jupyter Notebook.

انقر على الرابط للبحث عن الدروس ومجموعات البيانات ذات الصلة:

https://hyper.ai/tutorials

ما ورد أعلاه هو كل المحتوى الذي شاركه المحرر هذه المرة. آمل أن يكون هذا المحتوى مفيدًا لك. إذا كنت تريد أن تتعلم دروس تعليمية أخرى مثيرة للاهتمام، يرجى ترك رسالة لتخبرنا بعنوان المشروع. سيقوم المحرر بتصميم دورة تدريبية مخصصة لك وتعليمك كيفية اللعب باستخدام الذكاء الاصطناعي.

مراجع:

1.https://zhuanlan.zhihu.com/p/627133524

2.https://fuxi.163.com/database/739

3.https://zhuanlan.zhihu.com/p/669814884