اقرأ، شاهد و صرخ! إنتاج الصوت من النص والفيديو

رغم التقدم المثير للإعجاب في نماذج التوليد المتعددة الأوضاع، لا تزال عملية تحويل الفيديو إلى صوت تعاني من أداء محدود ويحد ذلك من مرونة التركيز على توليد الصوت لعناصر معينة داخل المشهد. بالمقابل، تولد طرق تحويل النص إلى صوت صوتًا عالي الجودة ولكنها تواجه تحديات في ضمان وصف شامل للمشهد وتحكم متغير زمنيًا. لمواجهة هذه التحديات، نقترح طريقة جديدة لتوليد الصوت من الفيديو والنص، تُعرف بـ \ours، حيث يخدم الفيديو كتحكم شرطي لنموذج تحويل النص إلى صوت. خصوصًا، تقوم طريقتنا بتقدير المعلومات الهيكلية للصوت (أي الطاقة) من الفيديو بينما تتلقى إشارات المحتوى الرئيسية من دفعة المستخدم. نستخدم نموذج تحويل النص إلى صوت ذا أداء جيد لتعزيز التحكم بالفيديو، مما يجعله أكثر كفاءة في تدريب نماذج الانتشار المتعددة الأوضاع باستخدام بيانات ثلاثية مرتبطة (صوت-فيديو-نص) ضخمة. بالإضافة إلى ذلك، عن طريق فصل المكونات التوليدية للصوت، يصبح النظام أكثر مرونة يسمح للمستخدمين بتعديل الطاقة والبيئة المحيطة ومصدر الصوت الرئيسي حسب تفضيلاتهم بحرية. تظهر النتائج التجريبية أن طريقتنا تتفوق من حيث الجودة والقابلية للتحكم وكفاءة التدريب. يمكن الوصول إلى الكود والعرض التوضيحي عبر الرابط: https://naver-ai.github.io/rewas.