HyperAIHyperAI
منذ 2 أشهر

فريرين: شبكة توليد كفاءة الفيديو إلى الصوت مع مطابقة التدفق المصحح

Wang, Yongqi ; Guo, Wenxiang ; Huang, Rongjie ; Huang, Jiawei ; Wang, Zehan ; You, Fuming ; Li, Ruiqi ; Zhao, Zhou
فريرين: شبكة توليد كفاءة الفيديو إلى الصوت مع مطابقة التدفق المصحح
الملخص

توليد الصوت من الفيديو (V2A) يهدف إلى إنتاج صوت متوافق مع المحتوى من فيديو خالي من الصوت، وما زال التحدي قائماً في بناء نماذج V2A ذات جودة توليد عالية وكفاءة وتناسق زمني بين البصر والصوت. نقترح فريين، وهو نموذج V2A يستند إلى تطابق الجريان المصحح. يقوم فريين بتقدير حقل النقل الشرطي من الضوضاء إلى الكامن الطيفي باستخدام المسارات المستقيمة ويقوم بتجميع العينات عن طريق حل المعادلة التفاضلية العادية (ODE)، مما يجعله يتفوق على النماذج الذاتية الانحدار والنماذج القائمة على الدرجات من حيث جودة الصوت. وباستخدام مقدر حقل متجه غير ذاتي الانحدار يستند إلى تحويلة تغذية تقدمية ودمج خصائص متعددة الوسائط على مستوى القناة مع تناسق زمني قوي، فإن نموذجنا ينتج صوتاً متناسقاً بشكل كبير مع الفيديو المدخل. علاوة على ذلك، من خلال إعادة الجريان والتجميع في خطوة واحدة باستخدام حقل متجه مرشد، يمكن لنموذجنا إنتاج صوت جيد في عدد قليل جداً من خطوات التجميع، أو حتى في خطوة واحدة فقط. تشير التجارب إلى أن فريين حقق أداءً رائدًا في كل من جودة التوليد والتناسق الزمني على VGGSound، حيث بلغت دقة التناسق 97.22٪، وتحسن مؤشر الإنشاء بنسبة 6.2٪ مقارنة بالنموذج الأساسي القائم على الانتشار القوي. يمكن الوصول إلى عينات الصوت عبر الرابط: http://frieren-v2a.github.io.

فريرين: شبكة توليد كفاءة الفيديو إلى الصوت مع مطابقة التدفق المصحح | أحدث الأوراق البحثية | HyperAI