Command Palette
Search for a command to run...
HuMo: إنشاء فيديو متمحور حول الإنسان من خلال التحفيز المتعدد الوسائط التعاوني
HuMo: إنشاء فيديو متمحور حول الإنسان من خلال التحفيز المتعدد الوسائط التعاوني
Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu
الملخص
تسعى أساليب توليد الفيديو البشرية المركزية (HCVG) إلى إنتاج مقاطع فيديو تمثل البشر من مدخلات متعددة الوسائط، بما في ذلك النص والصورة والصوت. تعاني الأساليب الحالية من صعوبة في تنسيق هذه الوسائط المتنوعة بشكل فعّال بسبب تحديين رئيسيين: ندرة بيانات التدريب التي تحتوي على شروط ثلاثية مزامنة (مترابطة)، وصعوبة تنسيق المهام الفرعية المتعلقة بالحفاظ على الموضوع وتحقيق التزامن بين الصوت والصورة عند استخدام مدخلات متعددة الوسائط. في هذا العمل، نقدّم HuMo، وهي إطار موحد لتوليد الفيديو البشري المتمحور حول الوسائط المتعددة، يهدف إلى تحقيق التحكم التعاوني عبر الوسائط المتعددة. وبالنسبة للتحدي الأول، قمنا ببناء مجموعة بيانات عالية الجودة تتضمن نصوصًا وصورًا مرجعية وصوتيات متنوعة ومزامنة. وبالنسبة للتحدي الثاني، اقترحنا نموذجًا تدريبيًا تدريجيًا على مرحلتين يعتمد على استراتيجيات مخصصة لكل مهمة. بالنسبة لمهام الحفاظ على الموضوع، ولضمان الحفاظ على قدرات النموذج الأساسي في اتباع التعليمات والتعبير البصري، اعتمدنا استراتيجية إدخال الصورة ذات التدخل الأدنى (minimal-invasive image injection). أما بالنسبة لمهام التزامن بين الصوت والصورة، فبالإضافة إلى استخدام طبقة الانتباه المتقاطع للصوت التي تُستخدم بشكل شائع، قمنا بطرح استراتيجية "التركيز من خلال التنبؤ" (focus-by-predicting)، التي توجه النموذج بشكل غير مباشر لربط الصوت بمناطق الوجه. وبالنسبة للتعلم المشترك للتحكم عبر المدخلات متعددة الوسائط، وباستنادنا إلى المهارات المكتسبة سابقًا، نقوم تدريجيًا بإدخال مهمة التزامن بين الصوت والصورة. أثناء الاستدلال، ولتحقيق تحكم مرن ودقيق عبر الوسائط المتعددة، صممنا استراتيجية توجيه بدون تصنيف (Classifier-Free Guidance) تتكيف مع الزمن، بحيث تضبط أوزان التوجيه بشكل ديناميكي عبر خطوات إزالة الضوضاء. أظهرت النتائج التجريبية الواسعة أن HuMo يتفوق على الأساليب المتقدمة المتخصصة في المهام الفرعية، مُثبّتًا إطارًا موحدًا لتوليد الفيديو البشري المتمحور حول التحكم التعاوني عبر الوسائط المتعددة. صفحة المشروع: https://phantom-video.github.io/HuMo.