التاريخ

منذ 7 أشهر

الوسوم

GitHub

1. مقدمة البرنامج التعليمي

Krea Realtime 14B، الذي أصدره فريق Krea في 20 أكتوبر 2025، هو نموذج لتوليد الفيديو في الوقت الفعلي، مزود بـ 14 مليار معلمة، قادر على توليد فيديوهات طويلة في الوقت الفعلي، مما يجعله أحد أكبر نماذج توليد الفيديو في الوقت الفعلي المتاحة للعامة. يعتمد النموذج على نموذج Wan 2.1 14B لتحويل النص إلى فيديو، ويستخدم تدريب التقطير القسري ذاتيًا لتحويل نموذج انتشار الفيديو التقليدي إلى بنية انحدار ذاتي، مما يحقق تجربة توليد فيديو في الوقت الفعلي حقيقية. بالمقارنة مع نموذج Wan 2.1 1.3B السابق، يُظهر Krea Realtime 14B تحسينات ملحوظة في نمذجة الحركة المعقدة، وإعادة إنتاج التفاصيل عالية التردد، والاتساق الزمني طويل المدى. باستخدام وحدة معالجة رسومات NVIDIA B200 واحدة، يحقق معدل توليد نص إلى فيديو يبلغ 11 إطارًا في الثانية بأربع خطوات استدلال فقط. بفضل خاصية Krea Realtime الفورية، يُمكن للمُبدعين تعديل الرسائل ومعاينة النتائج فورًا أثناء عملية الإنتاج، مما يُتيح تجربة تفاعلية إبداعية تجمع بين "الإنتاج والإخراج في آنٍ واحد". تُحسّن هذه الإمكانية بشكل كبير من كفاءة تكرار إنتاج الفيديو.

يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX-PRO-6000 أحادية البطاقة. تدعم إرشادات المشروع اللغتين الصينية والإنجليزية، كما يدعم الفيديو النصي، والفيديو المبني على الصور، وإدخال الكاميرا الفوري.

يرجى ملاحظة أن المشروع في هذا البرنامج التعليمي يدعم الواجهة الإنجليزية فقط.

2. أمثلة المشاريع

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا ظهرت رسالة "بوابة غير صالحة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لكبر حجم النموذج، يُرجى الانتظار لمدة 5-6 دقائق ثم تحديث الصفحة.

سيكون توليد الفيديو الأول بعد دخول النظام بطيئًا نسبيًا، لذا يُرجى التحلي بالصبر. ستزداد سرعة توليد الفيديو لاحقًا.

2. خطوات استخدام تحويل النص إلى فيديو (t2v)

وصف المعلمة

التشغيل: سرعة تشغيل الفيديو بعد كل مقطع. سيتوقف الفيديو مؤقتًا بشكل ملحوظ عند تشغيل > ٤.
الوضع: اختر الوضع. هناك ثلاثة أوضاع: نص إلى فيديو، فيديو إلى فيديو، وكاميرا ويب.
الترويج: كلمة حث. تُستخدم لتحديد محتوى الفيديو المُنشأ. يُمكن تعديلها في منتصف الفيديو، وتحديث كلمة الحث فورًا بالنقر على "تطبيق الحث".
خطوات المزج: تحدد عدد الخطوات التي يتخذها النموذج لدمج ميزات الإشارات الجديدة تدريجيًا في الفيديو.
قوة إزالة الضوضاء: شدة تقليل الضوضاء. كلما ارتفعت القيمة، اختلف الناتج الناتج عن الصورة الأصلية، والعكس صحيح.
معدل الإطارات في الثانية لالتقاط الصور من كاميرا الويب: سرعة التقاط الكاميرا للصور. يلزم تحديد قيمة مناسبة، وإلا فقد لا تتمكن سرعة معالجة النموذج من مواكبة ذلك.
العرض/الارتفاع: العرض والارتفاع للفيديو النهائي الذي تم إنشاؤه.
البذرة: بذرة توليد الفيديو. تُحدد البذرة الثابتة نتيجة توليد واحدة.
عدد الكتل: عدد كتل الفيديو المُولَّدة. كلما زاد عدد الكتل، زاد طول الفيديو المُولَّد.
خطوات إزالة الضوضاء: عدد التكرارات التي يُجريها النموذج لاستعادة صورة/فيديو من ضوضاء خالصة. كلما زادت الخطوات، زادت دقة إزالة الضوضاء وجودة الصورة، ولكن مع بطء عملية التوليد.
تغيير المرحلة الزمنية: سلاسة الفيديو. تؤدي القيمة الأعلى إلى تغييرات أكثر في الفيديو، لكنها أكثر عرضة لعدم الاستقرار؛ أما القيمة المنخفضة فتؤدي إلى لقطات أكثر ثباتًا، لكنها قد تجعل الحركة أبطأ أو أقل وضوحًا.

نصيحة: حاول عدم تعديل العرض/الارتفاع، لأنه قد يسبب مشاكل.

3. خطوات استخدام الفيديو إلى الفيديو (v2v)

4. خطوات استخدام كاميرا الويب

المتطلبات الأساسية: انقر على "كاميرا الويب". ستظهر نافذة منبثقة في متصفحك لعرض كاميرا الويب. اختر كاميرا الويب التي تريد استخدامها (كاميرا خارجية أو مسجل شاشة مناسب) واسمح لصفحة الويب باستخدام كاميرا الويب الخاصة بك. إذا لم تظهر أي نافذة منبثقة، يمكنك أيضًا تعديلها من إعدادات المتصفح.

يختلف كل متصفح عن الآخر؛ يوضح هذا البرنامج التعليمي إعدادات كاميرا الويب لمتصفح Google Chrome.

إذا لم يكن هناك نافذة منبثقة، فيمكنك أيضًا تعديلها في إعدادات المتصفح الخاص بك.

بدء إنشاء فيديو كاميرا الويب

5. تنزيل الفيديو

لتنزيل الفيديو الناتج، انقر ببساطة على "تنزيل الفيديو".

6. الأسئلة الشائعة

1. هل يجب عليّ الانتظار لمدة 5 دقائق لإعادة الدخول إلى صفحة الويب بعد الخروج منها؟

طالما أن الحاوية لم تُغلق بعد فتحها، فلا داعي للانتظار مرة أخرى.

2. الواجهة باللغة الإنجليزية فقط، ولا أعرف وظيفة كل ميزة.

تم شرح بعض الوظائف في "خطوات التشغيل ← خطوات استخدام تحويل النص إلى فيديو (T2V)"، وقد لا تكون دقيقة تمامًا. لمن لا يفهم أو مهتم، يمكنه الاطلاع عليها.

3. لم يظهر الفيديو.

ربما كان الإعداد الأولي كبيرًا جدًا، أو ربما انقطع اتصال النظام. حاول تحديث صفحة الويب أو تعديل المعلمات لتقليل حمل التوليد.

4. لا يتم تقديم أي إخراج بعد كتابة اللغة الإنجليزية في الموجه.

يتطلب هذا المشروع متطلبات عالية جدًا للإدخال باللغة الإنجليزية؛ أي كلمات غير صحيحة ستؤدي إلى عدم الحصول على أي نتائج. يُنصح بالتحقق من دقة إدخالك. بالإضافة إلى ذلك، تدعم وظيفة "المطالبة" الإدخال باللغة الصينية.

5. كاميرا الويب لا تستجيب.

بعض المتصفحات غير متوافقة مع هذا المشروع؛ ننصح بتجربة جوجل كروم أو أي متصفح آخر. إذا اخترت وضع كاميرا الويب في محاولتك الأولى لإنشاء هذا المشروع، فقد يُسبب ذلك مشاكل في نظام الواجهة الخلفية. في هذه الحالة، نقترح تحديث الصفحة، وإنشاء ملف نص إلى فيديو أولًا، ثم التبديل إلى وضع كاميرا الويب وضبط معدل الإطارات في الثانية لالتقاط كاميرا الويب إلى أقل من 10. هذا من شأنه أن يُمكّن من إنشاء المشروع بنجاح.

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@software{krea_realtime_14b,
  title={Krea Realtime 14B: Real-time Video Generation},
  author={Krea AI},
  year={2025},
  url={https://github.com/krea-ai/realtime-video}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

الرؤية الحاسوبية الذكاء الاصطناعي التوليدي

Voxtral-Mini-4B-Realtime-2602 برنامج تحويل الكلام متعدد اللغات في الوقت الحقيقي

منذ 4 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord