HyperAIHyperAI
منذ 2 أشهر

ترويض التدريب المشترك متعدد الوسائط لتحسين جودة تحويل الفيديو إلى صوت

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji
ترويض التدريب المشترك متعدد الوسائط لتحسين جودة تحويل الفيديو إلى صوت
الملخص

نقترح إنتاج صوت عالي الجودة ومتناسق، مع وجود شروط فيديو ونص اختياري، باستخدام إطار تدريب متعدد الوسائط جديد يُدعى MMAudio. على عكس التدريب الأحادي الوسيلة الذي يعتمد فقط على بيانات الفيديو (المحدودة)، يتم تدريب MMAudio بشكل مشترك باستخدام بيانات نص-صوت ذات نطاق أوسع وأكثر جاهزية لتعلم إنتاج عينات صوتية عالية الجودة ومتماشية مع المعنى. بالإضافة إلى ذلك، نحسن من تناسق الصوت والصورة من خلال وحدة تناسق مشروطة تقوم بالتوافق بين شروط الفيديو والمتغيرات الصوتية على مستوى الإطار. يتم تدريب MMAudio بهدف مطابقة التدفق، مما يجعله يحقق أحدث مستوى فائق للدولة في تحويل الفيديو إلى صوت بين النماذج العامة من حيث جودة الصوت، والتوافق الدلالي، وتناسق الصوت والصورة، بينما يتميز بوقت استدلال منخفض (1.23 ثانية لإنتاج مقطع مدته 8 ثوانٍ) ويحتوي على 157 مليون معلمة فقط. كما يحقق MMAudio أداءً متنافسًا بشكل مفاجئ في إنتاج الصوت من النص، مما يدل على أن التدريب المشترك لا يعيق الأداء الأحادي الوسيلة. يمكن الوصول إلى الكود والمثال العملي عبر الرابط: https://hkchengrex.github.io/MMAudio

ترويض التدريب المشترك متعدد الوسائط لتحسين جودة تحويل الفيديو إلى صوت | أحدث الأوراق البحثية | HyperAI