HyperAIHyperAI

Command Palette

Search for a command to run...

HuMo: إنشاء فيديو متمحور حول الإنسان من خلال التحفيز المتعدد الوسائط التعاوني

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

الملخص

تسعى أساليب توليد الفيديو البشرية المركزية (HCVG) إلى إنتاج مقاطع فيديو تمثل البشر من مدخلات متعددة الوسائط، بما في ذلك النص والصورة والصوت. تعاني الأساليب الحالية من صعوبة في تنسيق هذه الوسائط المتنوعة بشكل فعّال بسبب تحديين رئيسيين: ندرة بيانات التدريب التي تحتوي على شروط ثلاثية مزامنة (مترابطة)، وصعوبة تنسيق المهام الفرعية المتعلقة بالحفاظ على الموضوع وتحقيق التزامن بين الصوت والصورة عند استخدام مدخلات متعددة الوسائط. في هذا العمل، نقدّم HuMo، وهي إطار موحد لتوليد الفيديو البشري المتمحور حول الوسائط المتعددة، يهدف إلى تحقيق التحكم التعاوني عبر الوسائط المتعددة. وبالنسبة للتحدي الأول، قمنا ببناء مجموعة بيانات عالية الجودة تتضمن نصوصًا وصورًا مرجعية وصوتيات متنوعة ومزامنة. وبالنسبة للتحدي الثاني، اقترحنا نموذجًا تدريبيًا تدريجيًا على مرحلتين يعتمد على استراتيجيات مخصصة لكل مهمة. بالنسبة لمهام الحفاظ على الموضوع، ولضمان الحفاظ على قدرات النموذج الأساسي في اتباع التعليمات والتعبير البصري، اعتمدنا استراتيجية إدخال الصورة ذات التدخل الأدنى (minimal-invasive image injection). أما بالنسبة لمهام التزامن بين الصوت والصورة، فبالإضافة إلى استخدام طبقة الانتباه المتقاطع للصوت التي تُستخدم بشكل شائع، قمنا بطرح استراتيجية "التركيز من خلال التنبؤ" (focus-by-predicting)، التي توجه النموذج بشكل غير مباشر لربط الصوت بمناطق الوجه. وبالنسبة للتعلم المشترك للتحكم عبر المدخلات متعددة الوسائط، وباستنادنا إلى المهارات المكتسبة سابقًا، نقوم تدريجيًا بإدخال مهمة التزامن بين الصوت والصورة. أثناء الاستدلال، ولتحقيق تحكم مرن ودقيق عبر الوسائط المتعددة، صممنا استراتيجية توجيه بدون تصنيف (Classifier-Free Guidance) تتكيف مع الزمن، بحيث تضبط أوزان التوجيه بشكل ديناميكي عبر خطوات إزالة الضوضاء. أظهرت النتائج التجريبية الواسعة أن HuMo يتفوق على الأساليب المتقدمة المتخصصة في المهام الفرعية، مُثبّتًا إطارًا موحدًا لتوليد الفيديو البشري المتمحور حول التحكم التعاوني عبر الوسائط المتعددة. صفحة المشروع: https://phantom-video.github.io/HuMo.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
HuMo: إنشاء فيديو متمحور حول الإنسان من خلال التحفيز المتعدد الوسائط التعاوني | مستندات | HyperAI