الملخص

في هذا العمل، نقوم بدراسة توليد فيديوهات التفاعل بين الإنسان والأشياء (Human-Object Interaction Video Generation - HOIVG)، والذي يهدف إلى تخليق فيديوهات عالية الجودة للتفاعل بين الإنسان والأشياء بناءً على شروط محددة تشمل النصوص، والصور المرجعية، والصوت، والوضعيات (pose). تحمل هذه المهمة قيمة عملية كبيرة لأتمتة إنشاء المحتوى في تطبيقات العالم الحقيقي، مثل عروض التجارة الإلكترونية، وإنتاج الفيديوهات القصيرة، والترفيه التفاعلي. ومع ذلك، فإن النهج الحالية تفشل في استيعاب جميع هذه الشروط الضرورية. لذا، نقدم OmniShow، وهو إطار عمل (framework) متكامل (end-to-end) مُصمم خصيصاً لهذه المهمة العملية والصعبة في آن واحد، حيث يتميز بالقدرة على التوفيق بين الشروط متعددة الوسائط (multimodal conditions) وتقديم أداء بمستوى صناعي.وللتغلب على المقايضة بين القدرة على التحكم (controllability) والجودة، قمنا بتقديم تقنية "التكييف الموحد عبر القنوات" (Unified Channel-wise Conditioning) لحقن الصور والوضعيات (pose) بكفاءة، بالإضافة إلى "انتباه السياق المحلي المبوّب" (Gated Local-Context Attention) لضمان المزامنة الدقيقة بين الصوت والصورة. ولمعالجة ندرة البيانات بفعالية، قمنا بتطوير استراتيجية "التدريب المنفصل ثم المشترك" (Decoupled-Then-Joint Training) التي تستفيد من عملية تدريب متعددة المراحل مع دمج النماذج (model merging) للاستفادة بكفاءة من مجموعات بيانات المهام الفرعية غير المتجانسة. علاوة على ذلك، ولملء الفجوة التقييمية في هذا المجال، قمنا بإنشاء HOIVG-Bench، وهو benchmark مخصص وشامل لمهمة HOIVG. تُظهر التجارب المكثفة أن OmniShow يحقق أداءً فائقاً (state-of-the-art) بشكل عام عبر مختلف إعدادات التكييف متعدد الوسائط، مما يضع معياراً راسخاً لمهمة HOIVG الناشئة.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen

Donghao Zhou Guisheng Liu Hao Yang Jiatong Li Jingyu Lin Xiaohu Huang Yichen Liu Xin Gao Cunjian Chen Shilei Wen