UniVerse-1: توليد الصوت والفيديو الموحّد من خلال خياطة الخبراء

نُقدّم نموذج UniVerse-1، وهو نموذج موحد يشبه نموذج Veo-3، قادر على إنتاج صوت وصورة منسقين في آنٍ واحد. ولتحسين كفاءة التدريب، نتجنب التدريب من الصفر، ونعتمد بدلاً من ذلك تقنية "الدمج المتخصص" (Stitching of Experts - SoE). حيث يتم دمج عمقٍ للوحدات المقابلة في نماذج خبراء التوليد المُدرّبة مسبقًا الخاصة بالفيديو والموسيقى، مما يُمكّن من الاستفادة الكاملة من قدراتها الأساسية. ولضمان التصنيف الدقيق والتماثل الزمني للصوتيات البيئية واللغة مع محتوى الفيديو، طوّرنا عملية تصنيف آنية (Online Annotation Pipeline) تقوم بمعالجة البيانات المطلوبة للتدريب وإنشاء التصنيفات أثناء عملية التدريب. ويُسهم هذا النهج في تجنّب التدهور في الأداء الذي يُسبّبه غالبًا عدم التماثل الناتج عن التصنيفات القائمة على النصوص. وبفضل التآزر بين هذه التقنيات، يُنتج نموذجنا، بعد التدرّب الدقيق (Fine-tuning) على ما يقارب 7600 ساعة من البيانات الصوتية-المرئية، نتائج تتميز بتنسيق متقن بين الصوت والصورة في توليد الصوتيات البيئية، وتماثل قوي في توليد الكلام. ولتقييم منهجنا بشكل منهجي، نقدّم "Verse-Bench"، مجموعة بيانات معيارية جديدة. وحرصًا على دفع عجلة البحث في مجال توليد الصوت والصورة، وتقليل الفجوة في الأداء مقارنة بالنماذج الرائدة مثل Veo3، نُفصح عن نموذجنا وشفرة المصدر بشكل مفتوح. ونأمل أن يُسهم هذا المُساهمة في خدمة المجتمع البحثي الأوسع. صفحة المشروع: هذا الرابط https URL.