1. مقدمة البرنامج التعليمي

Wan-2.2 هو نموذج متطور لتوليد الفيديو بالذكاء الاصطناعي، تم إطلاقه كمصدر مفتوح من قِبل مختبر تونغي وانشيانغ التابع لشركة علي بابا في 28 يوليو 2025. يتألف النموذج من ثلاثة نماذج مفتوحة المصدر: فيديو نصي (Wan2.2-T2V-A14B)، وفيديو صوري (Wan2.2-I2V-A14B)، وتوليد فيديو موحد (Wan2.2-IT2V-5B)، بإجمالي 27 مليار مُعامل. يُعد هذا النموذج الأول من نوعه الذي يُقدم بنية خبير هجين (MoE)، مما يُحسّن جودة التوليد وكفاءة الحساب بشكل فعّال. كما أنه رائد في نظام تحكم جمالي سينمائي، يتحكم بدقة في المؤثرات الجمالية مثل الإضاءة واللون والتكوين. يستخدم هذا البرنامج التعليمي نموذج توليد الفيديو المُدمج ذو 5 مليارات مُعامل، والذي يدعم توليد الفيديو النصي والصوري، ويمكن تشغيله على بطاقات الرسومات الاستهلاكية، ويعتمد على بنية VAE ثلاثية الأبعاد عالية الكفاءة، مما يُحقق معدلات ضغط عالية وقدرات سريعة لتوليد فيديو عالي الوضوح. تتوفر أوراق بحثية ذات صلة. وان: نماذج توليد الفيديو المفتوحة والمتقدمة واسعة النطاق .

يستخدم هذا البرنامج التعليمي وحدة معالجة رسومية واحدة من نوع RTX A6000 كمورد حوسبة، وينشر نموذج Wan2.2-IT2V-5B. يُقدَّم مثالان للاختبار: توليد النص إلى فيديو وتوليد الصورة إلى فيديو.

2. عرض التأثير

فيديو إنشاء النص

فيديو تم إنشاؤه بالصور

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

1. تحويل النص إلى فيديو

المعلمات المحددة:

الموجه: النص الذي يصف محتوى الفيديو الذي تريد إنشاءه.
المدة: حدد مدة الفيديو المطلوبة (بالثواني).
دقة الإخراج: حدد دقة (العرض × الارتفاع) للفيديو الناتج.
خطوات أخذ العينات: تتحكم في عدد عمليات التحسين التكرارية أثناء إنشاء الفيديو (عدد خطوات إزالة الضوضاء لنموذج الانتشار).
مقياس التوجيه: يتحكم في مدى نجاح النموذج في متابعة كلمات المستخدم الموجهة.
تحول العينة: يتعلق بالعينة المستخدمة، ويستخدم لضبط معلمات عملية أخذ العينات.
البذرة: تتحكم في عشوائية عملية التوليد.

2. توليد الصور إلى فيديو

4. المناقشة

🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

منذ 2 أشهر

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook ناقش على Discord

التاريخ

منذ 6 أشهر

الحجم

1001.26 MB

الوسوم

نص إلى فيديو

توليد الفيديو

الترخيص

Apache 2.0

GitHub

Wan-Video/Wan2.2

رابط الورقة البحثية

2503.20314

1. مقدمة البرنامج التعليمي

يستخدم هذا البرنامج التعليمي وحدة معالجة رسومية واحدة من نوع RTX A6000 كمورد حوسبة، وينشر نموذج Wan2.2-IT2V-5B. يُقدَّم مثالان للاختبار: توليد النص إلى فيديو وتوليد الصورة إلى فيديو.

2. عرض التأثير

فيديو إنشاء النص

فيديو تم إنشاؤه بالصور

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.

1. تحويل النص إلى فيديو

المعلمات المحددة:

الموجه: النص الذي يصف محتوى الفيديو الذي تريد إنشاءه.
المدة: حدد مدة الفيديو المطلوبة (بالثواني).
دقة الإخراج: حدد دقة (العرض × الارتفاع) للفيديو الناتج.
خطوات أخذ العينات: تتحكم في عدد عمليات التحسين التكرارية أثناء إنشاء الفيديو (عدد خطوات إزالة الضوضاء لنموذج الانتشار).
مقياس التوجيه: يتحكم في مدى نجاح النموذج في متابعة كلمات المستخدم الموجهة.
تحول العينة: يتعلق بالعينة المستخدمة، ويستخدم لضبط معلمات عملية أخذ العينات.
البذرة: تتحكم في عشوائية عملية التوليد.

2. توليد الصور إلى فيديو

4. المناقشة

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

منذ 3 أشهر

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

منذ 3 أشهر

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

منذ 2 أشهر

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

منذ 3 أشهر

SAM3: نموذج التجزئة المرئية

منذ 2 أشهر

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

منذ 2 أشهر

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

منذ 2 أشهر

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

Wan2.2: نموذج مفتوح المصدر لتوليد الفيديو عالي المستوى وواسع النطاق

1. مقدمة البرنامج التعليمي

2. عرض التأثير

فيديو إنشاء النص

فيديو تم إنشاؤه بالصور

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

1. تحويل النص إلى فيديو

2. توليد الصور إلى فيديو

4. المناقشة

معلومات الاستشهاد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Wan2.2: نموذج مفتوح المصدر لتوليد الفيديو عالي المستوى وواسع النطاق

1. مقدمة البرنامج التعليمي

2. عرض التأثير

فيديو إنشاء النص

فيديو تم إنشاؤه بالصور

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

1. تحويل النص إلى فيديو

2. توليد الصور إلى فيديو

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Wan2.2: نموذج مفتوح المصدر لتوليد الفيديو عالي المستوى وواسع النطاق

1. مقدمة البرنامج التعليمي

2. عرض التأثير

فيديو إنشاء النص

فيديو تم إنشاؤه بالصور

3. خطوات التشغيل

1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام

1. تحويل النص إلى فيديو

2. توليد الصور إلى فيديو

4. المناقشة

معلومات الاستشهاد

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

PaddleOCR-VL: تحليل المستندات متعدد الوسائط

SAM3: نموذج التجزئة المرئية

Open-AutoGLM: مساعد ذكي للأجهزة المحمولة

HunyuanOCR: التعرف الضوئي على الحروف (OCR) الشامل من Tencent Hunyuan

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

ذات صلة دفاتر تفاعلية

LongCat-Video: نموذج Meituan مفتوح المصدر لتوليد الفيديو بالذكاء الاصطناعي

Krea-realtime-video: نموذج توليد الفيديو في الوقت الفعلي

خدمة VibeVoice-Realtime TTS: خدمة توليف الكلام في الوقت الفعلي

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة