التاريخ

منذ 8 أشهر

الوسوم

متعدد الوسائط

توليد الفيديو

RTX 5090

رابط الورقة البحثية

2509.08519

الترخيص

Apache 2.0

GitHub

Phantom-video/HuMo1.3k

1. مقدمة البرنامج التعليمي

يُعدّ HuMo، الذي أطلقته جامعة تسينغهوا ومختبر الإبداع الذكي التابع لشركة ByteDance في سبتمبر 2025، إطار عمل لتوليد الفيديو متعدد الوسائط، يركز على توليد الفيديو الذي يتمحور حول الإنسان. يُمكنه توليد فيديوهات عالية الجودة، غنية بالتفاصيل، وقابلة للتحكم، تُحاكي حركات الإنسان، وذلك من خلال مدخلات متعددة الوسائط، تشمل النصوص والصور والصوت. يدعم HuMo إمكانيات متقدمة لتتبع الإشارات النصية، والحفاظ على هوية الشخص المُصوَّر، ومزامنة الحركة مع الصوت. كما يدعم توليد الفيديو من النص والصورة (VideoGen from Text-Image)، والنص والصوت (VideoGen from Text-Audio)، والنص والصورة والصوت (VideoGen from Text-Image-Audio)، مما يمنح المستخدمين مزيدًا من التخصيص والتحكم. تتوفر أوراق بحثية ذات صلة. HuMo: إنشاء فيديو يركز على الإنسان من خلال التكييف التعاوني متعدد الوسائط .

يوفر مشروع HuMo نشر النماذج بمواصفاتين: 1.7B و17B. يستخدم هذا البرنامج التعليمي نموذج 1.7B وبطاقة RTX 5090 واحدة كمورد.

2. أمثلة المشاريع

VideoGen من Text-Image-Audio،TIA

VideoGen من Text-Audio،TA

3. خطوات التشغيل

1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام

إذا تم عرض "بوابة سيئة"، فهذا يعني أن النموذج قيد التهيئة. نظرًا لأن النموذج كبير الحجم، يرجى الانتظار لمدة 2-3 دقائق وتحديث الصفحة. ملاحظة: عند ضبط خطوات أخذ العينات على 10، يستغرق الأمر ما يقرب من 3 إلى 5 دقائق لتوليد النتائج.

VideoGen من Text-Image-Audio (TIA)

VideoGen من Text-Audio (TA)

وصف المعلمة

الارتفاع: تعيين ارتفاع الفيديو.
العرض: تعيين عرض الفيديو.
الإطارات: قم بتعيين عدد إطارات الفيديو.
مقياس توجيه النص: مقياس توجيه النص، المستخدم للتحكم في تأثير المطالبات النصية على إنشاء الفيديو.
مقياس توجيه الصورة: مقياس توجيه الصورة، المستخدم للتحكم في تأثير إشارات الصورة على إنشاء الفيديو.
مقياس التوجيه الصوتي: مقياس التوجيه الصوتي، المستخدم للتحكم في تأثير الإشارات الصوتية على إنشاء الفيديو.
خطوات أخذ العينات: عدد خطوات أخذ العينات المستخدمة للتحكم في جودة وتفاصيل الفيديو الناتج.

4. المناقشة

معلومات الاستشهاد

معلومات الاستشهاد لهذا المشروع هي كما يلي:

@misc{chen2025humo,
      title={HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning}, 
      author={Liyang Chen and Tianxiang Ma and Jiawei Liu and Bingchuan Li and Zhuowei Chen and Lijie Liu and Xu He and Gen Li and Qian He and Zhiyong Wu},
      year={2025},
      eprint={2509.08519},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2509.08519}, 
}

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

نظرة عامة على Notebook

المستوى

مبتدئ

الموضوع

أدلة الأطر الشائعة الذكاء الاصطناعي التوليدي الرؤية الحاسوبية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

شغّل هذا الـNotebook ناقش على Discord