HyperAIHyperAI

Command Palette

Search for a command to run...

UniVerse-1: توليد الصوت والفيديو الموحّد من خلال خياطة الخبراء

Duomin Wang Wei Zuo Aojie Li Ling-Hao Chen et al

الملخص

نُقدّم نموذج UniVerse-1، وهو نموذج موحد يشبه نموذج Veo-3، قادر على إنتاج صوت وصورة منسقين في آنٍ واحد. ولتحسين كفاءة التدريب، نتجنب التدريب من الصفر، ونعتمد بدلاً من ذلك تقنية "الدمج المتخصص" (Stitching of Experts - SoE). حيث يتم دمج عمقٍ للوحدات المقابلة في نماذج خبراء التوليد المُدرّبة مسبقًا الخاصة بالفيديو والموسيقى، مما يُمكّن من الاستفادة الكاملة من قدراتها الأساسية. ولضمان التصنيف الدقيق والتماثل الزمني للصوتيات البيئية واللغة مع محتوى الفيديو، طوّرنا عملية تصنيف آنية (Online Annotation Pipeline) تقوم بمعالجة البيانات المطلوبة للتدريب وإنشاء التصنيفات أثناء عملية التدريب. ويُسهم هذا النهج في تجنّب التدهور في الأداء الذي يُسبّبه غالبًا عدم التماثل الناتج عن التصنيفات القائمة على النصوص. وبفضل التآزر بين هذه التقنيات، يُنتج نموذجنا، بعد التدرّب الدقيق (Fine-tuning) على ما يقارب 7600 ساعة من البيانات الصوتية-المرئية، نتائج تتميز بتنسيق متقن بين الصوت والصورة في توليد الصوتيات البيئية، وتماثل قوي في توليد الكلام. ولتقييم منهجنا بشكل منهجي، نقدّم "Verse-Bench"، مجموعة بيانات معيارية جديدة. وحرصًا على دفع عجلة البحث في مجال توليد الصوت والصورة، وتقليل الفجوة في الأداء مقارنة بالنماذج الرائدة مثل Veo3، نُفصح عن نموذجنا وشفرة المصدر بشكل مفتوح. ونأمل أن يُسهم هذا المُساهمة في خدمة المجتمع البحثي الأوسع. صفحة المشروع: هذا الرابط https URL.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
UniVerse-1: توليد الصوت والفيديو الموحّد من خلال خياطة الخبراء | مستندات | HyperAI