HyperAIHyperAI
منذ 2 أشهر

ReVISE: إعادة تركيب الكلام ذاتي التعلم مع المدخل البصري لتحسين الكلام الشامل والمعمم

Wei-Ning Hsu; Tal Remez; Bowen Shi; Jacob Donley; Yossi Adi
ReVISE: إعادة تركيب الكلام ذاتي التعلم مع المدخل البصري لتحسين الكلام الشامل والمعمم
الملخص

البحوث السابقة التي تهدف إلى تحسين جودة الكلام باستخدام المدخلات البصرية عادةً ما تدرس كل نوع من أنواع التشويه السمعي بشكل منفصل (مثل، الفصل، الترميم، تحويل الفيديو إلى كلام) وتقدم خوارزميات مخصصة. يقترح هذا البحث توحيد هذه المواضيع ودراسة تعزيز الكلام العام، حيث الهدف ليس إعادة بناء الإشارة النظيفة المرجعية بدقة، بل التركيز على تحسين بعض جوانب الكلام. وبشكل خاص، يتناول هذا البحث فهم الكلام (intelligibility)، جودته، وتناسقه مع الفيديو. نصيغ المشكلة كإعادة تركيب الكلام السمعي-البصري، والتي تتكون من خطوتين: التعرف على الكلام السمعي-البصري الوهمي (P-AVSR) وإعادة إنتاج الكلام من النص الوهمي (P-TTS). يتم ربط P-AVSR و P-TTS بوحدات متقطعة مشتقة من نموذج الكلام ذاتي الرقابة. بالإضافة إلى ذلك، نستخدم نموذج الكلام السمعي-البصري ذاتي الرقابة لتهيئة P-AVSR. تم تسمية النموذج المقترح بـ ReVISE. يعتبر ReVISE أول نموذج عالي الجودة لتحويل الفيديو إلى كلام في بيئات حقيقية ويحقق أداءً متفوقًا في جميع مهام تعزيز الصوت والفيديو في LRS3 باستخدام نموذج واحد فقط. لإثبات قابليته للتطبيق في العالم الحقيقي، تم أيضًا تقييم ReVISE على EasyCom، وهو معيار سمعي-بصري تم جمعه تحت ظروف صوتية صعبة مع بيانات تدريبية مدتها 1.6 ساعة فقط. وبالمثل، يقوم ReVISE بتقليل الضوضاء بشكل كبير وتحسين الجودة.صفحة المشروع: https://wnhsu.github.io/ReVISE.