Command Palette
Search for a command to run...
OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction
OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction
الملخص
في هذا العمل، نقوم بدراسة توليد فيديوهات التفاعل بين الإنسان والأشياء (Human-Object Interaction Video Generation - HOIVG)، والذي يهدف إلى تخليق فيديوهات عالية الجودة للتفاعل بين الإنسان والأشياء بناءً على شروط محددة تشمل النصوص، والصور المرجعية، والصوت، والوضعيات (pose). تحمل هذه المهمة قيمة عملية كبيرة لأتمتة إنشاء المحتوى في تطبيقات العالم الحقيقي، مثل عروض التجارة الإلكترونية، وإنتاج الفيديوهات القصيرة، والترفيه التفاعلي. ومع ذلك، فإن النهج الحالية تفشل في استيعاب جميع هذه الشروط الضرورية. لذا، نقدم OmniShow، وهو إطار عمل (framework) متكامل (end-to-end) مُصمم خصيصاً لهذه المهمة العملية والصعبة في آن واحد، حيث يتميز بالقدرة على التوفيق بين الشروط متعددة الوسائط (multimodal conditions) وتقديم أداء بمستوى صناعي.وللتغلب على المقايضة بين القدرة على التحكم (controllability) والجودة، قمنا بتقديم تقنية "التكييف الموحد عبر القنوات" (Unified Channel-wise Conditioning) لحقن الصور والوضعيات (pose) بكفاءة، بالإضافة إلى "انتباه السياق المحلي المبوّب" (Gated Local-Context Attention) لضمان المزامنة الدقيقة بين الصوت والصورة. ولمعالجة ندرة البيانات بفعالية، قمنا بتطوير استراتيجية "التدريب المنفصل ثم المشترك" (Decoupled-Then-Joint Training) التي تستفيد من عملية تدريب متعددة المراحل مع دمج النماذج (model merging) للاستفادة بكفاءة من مجموعات بيانات المهام الفرعية غير المتجانسة. علاوة على ذلك، ولملء الفجوة التقييمية في هذا المجال، قمنا بإنشاء HOIVG-Bench، وهو benchmark مخصص وشامل لمهمة HOIVG. تُظهر التجارب المكثفة أن OmniShow يحقق أداءً فائقاً (state-of-the-art) بشكل عام عبر مختلف إعدادات التكييف متعدد الوسائط، مما يضع معياراً راسخاً لمهمة HOIVG الناشئة.