HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 19 أيام

UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط

Guozhen Zhang Zixiang Zhou Teng Hu Ziqiao Peng Youliang Zhang Yi Chen Yuan Zhou Qinglin Lu Limin Wang

UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط

الملخص

بسبب نقص النمذجة الفعّالة عبر الوسائط، تُظهر الطرق الحالية المفتوحة المصدر لتجنيد الصوت والفيديو عادةً تزامنًا ضعيفًا في حركة الشفاه وانعدامًا في الاتساق الدلالي. ولتقليل هذه العيوب، نقترح UniAVGen، وهي إطار موحد لتجنيد الصوت والفيديو معًا. يتميز UniAVGen ببنية تركيبية مزدوجة الفرع، والتي تضم نوعين متوازيين من نماذج التحويل التفاضلي (Diffusion Transformers - DiTs) لبناء فضاء كامن متماسك عبر الوسائط. وتركز هذه البنية على آلية تفاعل عبر وسائط غير متماثلة، تتيح التفاعل المتبادل والمرتبط زمنيًا عبر الانتباه المتقاطع، مما يضمن تزامنًا دقيقًا في المجال والزمن، واتساقًا دلاليًا قويًا. علاوةً على ذلك، يتم تعزيز هذه الآلية عبر الوسائط بواسطة وحدة تنظيم واعية بالوجه، والتي تُعطي أولوية ديناميكية للمناطق البارزة أثناء عملية التفاعل. ولتحسين الدقة في التوليد أثناء الاستدلال، نقدم أيضًا استراتيجية جديدة تُعرف بـ "توجيه غير مُصنّف حسب الوسيلة"، والتي تُضخم بشكل صريح إشارات الارتباط عبر الوسائط. ومن الجدير بالذكر أن التصميم القوي للتركيب المشترك في UniAVGen يمكّن من دمج سلس للمهام الأساسية المتعلقة بالصوت والفيديو ضمن نموذج واحد، مثل توليد الصوت والفيديو معًا واستمراره، وتحويل الصوت إلى فيديو (الدوبينغ الصوتي للفيديو)، وتوليد الفيديو بقيادة الصوت. وقد أكدت التجارب الشاملة أن UniAVGen يحقق مزايا عامة في تزامن الصوت والفيديو، واتساق الصوت (التيمبر)، واتساق المشاعر، حتى باستخدام عدد أقل بكثير من العينات التدريبية (1.3 مليون مقابل 30.1 مليون).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UniAVGen: توليد صوتي ومرئي موحد مع تفاعلات متقاطعة غير متماثلة بين الوسائط | الأوراق البحثية | HyperAI