HyperAIHyperAI

Command Palette

Search for a command to run...

ترويض التدريب المشترك متعدد الوسائط لتحسين جودة تحويل الفيديو إلى صوت

Ho Kei Cheng Masato Ishii Akio Hayakawa Takashi Shibuya Alexander Schwing Yuki Mitsufuji

الملخص

نقترح إنتاج صوت عالي الجودة ومتناسق، مع وجود شروط فيديو ونص اختياري، باستخدام إطار تدريب متعدد الوسائط جديد يُدعى MMAudio. على عكس التدريب الأحادي الوسيلة الذي يعتمد فقط على بيانات الفيديو (المحدودة)، يتم تدريب MMAudio بشكل مشترك باستخدام بيانات نص-صوت ذات نطاق أوسع وأكثر جاهزية لتعلم إنتاج عينات صوتية عالية الجودة ومتماشية مع المعنى. بالإضافة إلى ذلك، نحسن من تناسق الصوت والصورة من خلال وحدة تناسق مشروطة تقوم بالتوافق بين شروط الفيديو والمتغيرات الصوتية على مستوى الإطار. يتم تدريب MMAudio بهدف مطابقة التدفق، مما يجعله يحقق أحدث مستوى فائق للدولة في تحويل الفيديو إلى صوت بين النماذج العامة من حيث جودة الصوت، والتوافق الدلالي، وتناسق الصوت والصورة، بينما يتميز بوقت استدلال منخفض (1.23 ثانية لإنتاج مقطع مدته 8 ثوانٍ) ويحتوي على 157 مليون معلمة فقط. كما يحقق MMAudio أداءً متنافسًا بشكل مفاجئ في إنتاج الصوت من النص، مما يدل على أن التدريب المشترك لا يعيق الأداء الأحادي الوسيلة. يمكن الوصول إلى الكود والمثال العملي عبر الرابط: https://hkchengrex.github.io/MMAudio


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ترويض التدريب المشترك متعدد الوسائط لتحسين جودة تحويل الفيديو إلى صوت | مستندات | HyperAI