HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

هومو: توليد الفيديو المتمحور حول الإنسان من خلال التحفيز التعاوني متعدد الوسائط

Liyang Chen Tianxiang Ma Jiawei Liu Bingchuan Li Zhuowei Chen Lijie Liu Xu He Gen Li Qian He Zhiyong Wu

هومو: توليد الفيديو المتمحور حول الإنسان من خلال التحفيز التعاوني متعدد الوسائط

الملخص

تسعى أساليب توليد الفيديو ذات الطابع البشري (HCVG) إلى إنتاج مقاطع فيديو تمثل البشر من مدخلات متعددة الأنواع، تشمل النصوص والصور الصوتية. وتعاني الأساليب الحالية من صعوبة في تنسيق هذه الوسائط المختلفة بشكل فعّال، ناتجة عن تحديين رئيسيين: ندرة بيانات التدريب التي تحتوي على شروط ثلاثية مزدوجة (مُزَوَّجة)، وصعوبة تنسيق المهام الفرعية لحفظ الموضوع وتماشي الصوت والصورة عند استخدام مدخلات متعددة الأنواع. في هذا العمل، نقدّم "هومو" (HuMo)، وهي إطار عمل موحد لتوليد الفيديو البشري القائم على التحكم المتعدد الوسائط بشكل تعاوني. أما بالنسبة للتحدي الأول، فقد قمنا ببناء مجموعة بيانات عالية الجودة تتضمن نصوصًا وصورًا مرجعية وصوتيات متنوعة ومزدوجة. وبالنسبة للتحدي الثاني، نقترح نموذجًا تدريبيًا متعدد المراحل تدريجيًا، يعتمد على استراتيجيات مخصصة لكل مهمة. وفيما يتعلق بمهام الحفاظ على الموضوع، ولضمان الحفاظ على قدرات النموذج الأساسي في اتباع الأوامر والتحفيز البصري، نستخدم استراتيجية حقن الصورة ذات التدخل الأدنى (minimal-invasive image injection). أما في مهام محاذاة الصوت والصورة، فبالإضافة إلى طبقة الانتباه المتقاطع للصوت التي تُستخدم بشكل شائع، نقترح استراتيجية "التركيز من خلال التنبؤ" (focus-by-predicting)، التي توجه النموذج بشكل غير مباشر إلى ربط الصوت بمناطق الوجه. وبالنسبة للتعلم المشترك للتحكم عبر المدخلات المتعددة الوسائط، وبما أن النموذج قد اكتسب بالفعل قدرات سابقة، نُدخل تدريجيًا مهمة محاذاة الصوت والصورة. وفي مرحلة الاستدلال، لضمان التحكم متعدد الوسائط المرنة والدقيقة، صممنا استراتيجية توجيه خالية من الفئة (Classifier-Free Guidance) تعتمد على الزمن، والتي تُعدّل بشكل ديناميكي أوزان التوجيه خلال خطوات إزالة الضوضاء. وأظهرت النتائج التجريبية الواسعة أن "هومو" تتفوّق على الأساليب الرائدة المتخصصة في المهام الفرعية، مما يُرسّخ إطارًا موحدًا لتوليد الفيديو البشري القائم على التحكم المتعدد الوسائط بشكل تعاوني. صفحة المشروع: https://phantom-video.github.io/HuMo.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
هومو: توليد الفيديو المتمحور حول الإنسان من خلال التحفيز التعاوني متعدد الوسائط | الأوراق البحثية | HyperAI