نظرة عامة على المشروع

Vchitect-2.0 هو نظام عالي الجودة لتوليد الفيديو، طوّره فريق مختبر شنغهاي للذكاء الاصطناعي في سبتمبر 2024. يعتمد هذا النموذج على تصميم معماري مبتكر يعتمد على بنية Transformer المتوازية، ويضم ملياري مُعامل، وهو قادر على توليد محتوى فيديو سلس وعالي الجودة بناءً على نصوص مُدخلة. وقد نُشرت أبحاث ذات صلة بنجاح... Vchitect-2.0: محول متوازي لتوسيع نطاق نماذج انتشار الفيديو .

يستخدم هذا البرنامج التعليمي الموارد لبطاقة واحدة A6000.

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

لإنشاء فيديو، يجب إدخال نص موجه. يدعم النص اللغة الإنجليزية فقط. يمكن أن يكون طول النص بأي طول، ولكن يُنصح بألا يتجاوز 100 حرف، وإلا فقد يكون الفيديو المُنشأ طويلاً جدًا ويؤثر على جودته. يجب الانتظار لمدة دقيقتين إلى خمس دقائق تقريبًا، لذا يُرجى التحلي بالصبر.

التبادل والمناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{fan2025vchitect, title={Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models}, author={Fan, Weichen and Si, Chenyang and Song, Junhao and Yang, Zhenyu and He, Yinan and Zhuo, Long and Huang, Ziqi and Dong, Ziyue and He, Jingwen and Pan, Dongwei and others}, journal={arXiv preprint arXiv:2501.08453}, year={2025} }

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 8 أشهر

الحجم

395.28 MB

الوسوم

نص إلى فيديو

توليد الفيديو

الترخيص

Apache 2.0

GitHub

Vchitect/Vchitect-2.0

رابط الورقة البحثية

2501.08453

نظرة عامة على المشروع

يستخدم هذا البرنامج التعليمي الموارد لبطاقة واحدة A6000.

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

لإنشاء فيديو، يجب إدخال نص موجه. يدعم النص اللغة الإنجليزية فقط. يمكن أن يكون طول النص بأي طول، ولكن يُنصح بألا يتجاوز 100 حرف، وإلا فقد يكون الفيديو المُنشأ طويلاً جدًا ويؤثر على جودته. يجب الانتظار لمدة دقيقتين إلى خمس دقائق تقريبًا، لذا يُرجى التحلي بالصبر.

التبادل والمناقشة

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{fan2025vchitect,
  title={Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models},
  author={Fan, Weichen and Si, Chenyang and Song, Junhao and Yang, Zhenyu and He, Yinan and Zhuo, Long and Huang, Ziqi and Dong, Ziyue and He, Jingwen and Pan, Dongwei and others},
  journal={arXiv preprint arXiv:2501.08453},
  year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ 8 أشهر

الحجم

395.28 MB

الوسوم

نص إلى فيديو

توليد الفيديو

الترخيص

Apache 2.0

GitHub

Vchitect/Vchitect-2.0

رابط الورقة البحثية

2501.08453

نظرة عامة على المشروع

يستخدم هذا البرنامج التعليمي الموارد لبطاقة واحدة A6000.

خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 1-2 دقيقة وتحديث الصفحة.

2. بمجرد دخولك إلى صفحة الويب، يمكنك التفاعل مع النموذج

لإنشاء فيديو، يجب إدخال نص موجه. يدعم النص اللغة الإنجليزية فقط. يمكن أن يكون طول النص بأي طول، ولكن يُنصح بألا يتجاوز 100 حرف، وإلا فقد يكون الفيديو المُنشأ طويلاً جدًا ويؤثر على جودته. يجب الانتظار لمدة دقيقتين إلى خمس دقائق تقريبًا، لذا يُرجى التحلي بالصبر.

التبادل والمناقشة

معلومات الاستشهاد

شكرًا لمستخدم Github com.zhangjunchang لنشر هذا البرنامج التعليمي، معلومات مرجع المشروع هي كما يلي:

@article{fan2025vchitect,
  title={Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models},
  author={Fan, Weichen and Si, Chenyang and Song, Junhao and Yang, Zhenyu and He, Yinan and Zhuo, Long and Huang, Ziqi and Dong, Ziyue and He, Jingwen and Pan, Dongwei and others},
  journal={arXiv preprint arXiv:2501.08453},
  year={2025}
}

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

نيموترون - بث الكلام - التعرف التلقائي على الكلام

منذ 21 أيام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

منذ 19 أيام

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

منذ 2 أشهر

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

منذ شهر واحد

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

عرض توضيحي لنموذج انتشار الفيديو Vchitect-2.0

نظرة عامة على المشروع

خطوات التشغيل

التبادل والمناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

عرض توضيحي لنموذج انتشار الفيديو Vchitect-2.0

نظرة عامة على المشروع

خطوات التشغيل

التبادل والمناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

عرض توضيحي لنموذج انتشار الفيديو Vchitect-2.0

نظرة عامة على المشروع

خطوات التشغيل

التبادل والمناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

SAM3: نموذج التجزئة المرئية

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

Supertonic: نموذج توليف كلام TTS عالي السرعة يعتمد على ONNX

Kiss3DGen: إطار عمل لتوليد الأصول ثلاثية الأبعاد يعتمد على نموذج انتشار الصور

Z-Image-Turbo: نموذج عالي الكفاءة لتوليد الصور بستة معلمات