الملخص

بسبب نقص النمذجة الفعّالة عبر الوسائط، تُظهر الطرق الحالية المفتوحة المصدر لتجنيد الصوت والفيديو عادةً تزامنًا ضعيفًا في حركة الشفاه وانعدامًا في الاتساق الدلالي. ولتقليل هذه العيوب، نقترح UniAVGen، وهي إطار موحد لتجنيد الصوت والفيديو معًا. يتميز UniAVGen ببنية تركيبية مزدوجة الفرع، والتي تضم نوعين متوازيين من نماذج التحويل التفاضلي (Diffusion Transformers - DiTs) لبناء فضاء كامن متماسك عبر الوسائط. وتركز هذه البنية على آلية تفاعل عبر وسائط غير متماثلة، تتيح التفاعل المتبادل والمرتبط زمنيًا عبر الانتباه المتقاطع، مما يضمن تزامنًا دقيقًا في المجال والزمن، واتساقًا دلاليًا قويًا. علاوةً على ذلك، يتم تعزيز هذه الآلية عبر الوسائط بواسطة وحدة تنظيم واعية بالوجه، والتي تُعطي أولوية ديناميكية للمناطق البارزة أثناء عملية التفاعل. ولتحسين الدقة في التوليد أثناء الاستدلال، نقدم أيضًا استراتيجية جديدة تُعرف بـ "توجيه غير مُصنّف حسب الوسيلة"، والتي تُضخم بشكل صريح إشارات الارتباط عبر الوسائط. ومن الجدير بالذكر أن التصميم القوي للتركيب المشترك في UniAVGen يمكّن من دمج سلس للمهام الأساسية المتعلقة بالصوت والفيديو ضمن نموذج واحد، مثل توليد الصوت والفيديو معًا واستمراره، وتحويل الصوت إلى فيديو (الدوبينغ الصوتي للفيديو)، وتوليد الفيديو بقيادة الصوت. وقد أكدت التجارب الشاملة أن UniAVGen يحقق مزايا عامة في تزامن الصوت والفيديو، واتساق الصوت (التيمبر)، واتساق المشاعر، حتى باستخدام عدد أقل بكثير من العينات التدريبية (1.3 مليون مقابل 30.1 مليون).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters