Command Palette
Search for a command to run...
Wan2.2-S2V-14B: إنشاء فيديو صوتي بجودة الأفلام
Date
Size
1.46 GB
License
Apache 2.0
GitHub
Paper URL
1. مقدمة البرنامج التعليمي

Wan2.2-S2V-14B هو نموذج مفتوح المصدر لتوليد الفيديو يعتمد على الصوت، وقد أطلقه فريق تونغي وانشيانغ التابع لشركة علي بابا في أغسطس 2025. لا يتطلب Wan2.2-S2V-14B سوى صورة ثابتة ومقطع صوتي لتوليد فيديوهات رقمية بجودة سينمائية، تصل مدتها إلى دقائق. يدعم النموذج أنواعًا ونسب عرض مختلفة للصور. يمكن للمستخدمين التحكم في بث الفيديو من خلال إدخال نصوص توضيحية، مما يُثري الجوانب المرئية. يدمج النموذج تقنيات مبتكرة متعددة لتحقيق توليد فيديو يعتمد على الصوت في المشاهد المعقدة، ويدعم توليد فيديوهات طويلة والتدريب والاستدلال متعدد الدقة. يتمتع النموذج بتطبيقات واسعة في البث المباشر للفيديوهات الرقمية، وإنتاج الأفلام والبرامج التلفزيونية، وتعليم الذكاء الاصطناعي. تتوفر أوراق بحثية ذات صلة. Wan-S2V: إنشاء فيديو سينمائي يعتمد على الصوت .
موارد الحوسبة المستخدمة في هذا البرنامج التعليمي هي بطاقة RTX A6000 واحدة.
2. عرض التأثير

3. خطوات التشغيل
1. ابدأ تشغيل الحاوية

2. خطوات الاستخدام
إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة.
ملاحظة: كلما زادت خطوات الاستدلال، كان التأثير الناتج أفضل، ولكن وقت توليد الاستدلال سيكون أطول. يُرجى ضبط خطوات الاستدلال بشكل معقول (مثال 1: عندما تكون خطوات الاستدلال 10، يستغرق توليد فيديو حوالي 15 دقيقة).


المعلمات المحددة:
- الدقة (H*W): الدقة.
- عدد الإطارات لكل مقطع: يحدد عدد الإطارات المتتالية التي سيتم معالجتها أو إنشاؤها في كل مرة يتم فيها إنشاء الفيديو.
- معامل التوجيه: يتحكم في مدى قوة اتباع عملية التوليد لمطالبة الإدخال أو الشروط (مثل النص أو صورة المرجع).
- عدد الخطوات المُستخدَمة: يُحدِّد عدد التكرارات المُستخدَمة في عملية إنشاء نموذج الانتشار. تبدأ نماذج الانتشار عادةً بضوضاء نقية، ثم تخضع لخطوات إزالة ضوضاء مُتعدِّدة للحصول على النتيجة النهائية.
- تحويل الضوضاء: يستخدم لضبط خصائص الضوضاء أثناء عملية الانتشار، مثل تغيير توزيع الضوضاء أو شدتها.
- البذرة العشوائية (-1 عشوائي): تتحكم في الحالة الأولية لمولد الأرقام العشوائية.
- استخدام صورة المرجع كإطار أول: خيار منطقي. عند تفعيله، ستُستخدم صورة المرجع التي يوفرها المستخدم كإطار البدء (الإطار الأول) للفيديو المُولّد.
- تفريغ النموذج لحفظ ذاكرة الفيديو (أبطأ): تفريغ النموذج لحفظ ذاكرة الفيديو (أبطأ).
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

معلومات الاستشهاد
معلومات الاستشهاد لهذا المشروع هي كما يلي:
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.