HyperAIHyperAI

Command Palette

Search for a command to run...

OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction

الملخص

في هذا العمل، نقوم بدراسة توليد فيديوهات التفاعل بين الإنسان والأشياء (Human-Object Interaction Video Generation - HOIVG)، والذي يهدف إلى تخليق فيديوهات عالية الجودة للتفاعل بين الإنسان والأشياء بناءً على شروط محددة تشمل النصوص، والصور المرجعية، والصوت، والوضعيات (pose). تحمل هذه المهمة قيمة عملية كبيرة لأتمتة إنشاء المحتوى في تطبيقات العالم الحقيقي، مثل عروض التجارة الإلكترونية، وإنتاج الفيديوهات القصيرة، والترفيه التفاعلي. ومع ذلك، فإن النهج الحالية تفشل في استيعاب جميع هذه الشروط الضرورية. لذا، نقدم OmniShow، وهو إطار عمل (framework) متكامل (end-to-end) مُصمم خصيصاً لهذه المهمة العملية والصعبة في آن واحد، حيث يتميز بالقدرة على التوفيق بين الشروط متعددة الوسائط (multimodal conditions) وتقديم أداء بمستوى صناعي.وللتغلب على المقايضة بين القدرة على التحكم (controllability) والجودة، قمنا بتقديم تقنية "التكييف الموحد عبر القنوات" (Unified Channel-wise Conditioning) لحقن الصور والوضعيات (pose) بكفاءة، بالإضافة إلى "انتباه السياق المحلي المبوّب" (Gated Local-Context Attention) لضمان المزامنة الدقيقة بين الصوت والصورة. ولمعالجة ندرة البيانات بفعالية، قمنا بتطوير استراتيجية "التدريب المنفصل ثم المشترك" (Decoupled-Then-Joint Training) التي تستفيد من عملية تدريب متعددة المراحل مع دمج النماذج (model merging) للاستفادة بكفاءة من مجموعات بيانات المهام الفرعية غير المتجانسة. علاوة على ذلك، ولملء الفجوة التقييمية في هذا المجال، قمنا بإنشاء HOIVG-Bench، وهو benchmark مخصص وشامل لمهمة HOIVG. تُظهر التجارب المكثفة أن OmniShow يحقق أداءً فائقاً (state-of-the-art) بشكل عام عبر مختلف إعدادات التكييف متعدد الوسائط، مما يضع معياراً راسخاً لمهمة HOIVG الناشئة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp