UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط
Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

الملخص
بسبب نقص النمذجة الفعّالة عبر الوسائط، تُظهر الطرق الحالية المفتوحة المصدر لتجنيد الصوت والفيديو عادةً تزامنًا ضعيفًا في حركة الشفاه وانعدامًا في الاتساق الدلالي. ولتقليل هذه العيوب، نقترح UniAVGen، وهي إطار موحد لتجنيد الصوت والفيديو معًا. يتميز UniAVGen ببنية تركيبية مزدوجة الفرع، والتي تضم نوعين متوازيين من نماذج التحويل التفاضلي (Diffusion Transformers - DiTs) لبناء فضاء كامن متماسك عبر الوسائط. وتركز هذه البنية على آلية تفاعل عبر وسائط غير متماثلة، تتيح التفاعل المتبادل والمرتبط زمنيًا عبر الانتباه المتقاطع، مما يضمن تزامنًا دقيقًا في المجال والزمن، واتساقًا دلاليًا قويًا. علاوةً على ذلك، يتم تعزيز هذه الآلية عبر الوسائط بواسطة وحدة تنظيم واعية بالوجه، والتي تُعطي أولوية ديناميكية للمناطق البارزة أثناء عملية التفاعل. ولتحسين الدقة في التوليد أثناء الاستدلال، نقدم أيضًا استراتيجية جديدة تُعرف بـ "توجيه غير مُصنّف حسب الوسيلة"، والتي تُضخم بشكل صريح إشارات الارتباط عبر الوسائط. ومن الجدير بالذكر أن التصميم القوي للتركيب المشترك في UniAVGen يمكّن من دمج سلس للمهام الأساسية المتعلقة بالصوت والفيديو ضمن نموذج واحد، مثل توليد الصوت والفيديو معًا واستمراره، وتحويل الصوت إلى فيديو (الدوبينغ الصوتي للفيديو)، وتوليد الفيديو بقيادة الصوت. وقد أكدت التجارب الشاملة أن UniAVGen يحقق مزايا عامة في تزامن الصوت والفيديو، واتساق الصوت (التيمبر)، واتساق المشاعر، حتى باستخدام عدد أقل بكثير من العينات التدريبية (1.3 مليون مقابل 30.1 مليون).
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.