تحسين الكلام البصري دون وجود تدفق بصري حقيقي

في هذه الدراسة، نعيد تقييم مهمة تحسين الكلام في البيئات الواقعية غير المُقيّدة. تُستخدم الطرق الحالية الأفضل في مجالها فقط بتدفق الصوت، وتكون محدودة الأداء في مجموعة واسعة من الضوضاء الواقعية. وقد أظهرت الدراسات الحديثة التي تستخدم حركات الشفتين كمُعطيات إضافية تحسّن جودة الكلام المُنتَج مقارنة بطرق "الصوت فقط". لكن هذه الطرق لا يمكن استخدامها في العديد من التطبيقات التي تكون فيها البيانات البصرية غير موثوقة أو مفقودة تمامًا. نُقدّم نموذجًا جديدًا لتحسين الكلام من خلال الاستفادة من التطورات الحديثة في توليد حركات الشفتين المُتحكّمة بالكلام. باستخدام نموذج من هذا النوع كشبكة مُعلّم، نُدرّب شبكة طالب مُتميّزة لتوليد حركات شفتين دقيقة تُسَدّ الضوضاء، مما يجعلها تعمل كـ "مرشح بصري للضوضاء". تُظهر نتائج تحسين الكلام باستخدام نهجنا الافتراضي للشفاه تشابهًا كبيرًا (بفارق أقل من 3٪) مع الحالة التي تُستخدم فيها الشفتان الحقيقية. وهذا يدل على إمكانية الاستفادة من مزايا استخدام حركات الشفتين حتى في غياب تدفق فيديو حقيقي. قمنا بتقييم نموذجنا بشكل دقيق باستخدام مقاييس كمية، بالإضافة إلى تقييمات بشريّة. كما تُظهر دراسات التحليل التفصيلي (أبلاشينغ) الإضافية، ومقاطع الفيديو التوضيحية على موقعنا الإلكتروني، مقارنات نوعية ونتائج واضحة تُثبت فعالية نهجنا. نُقدّم فيديو توضيحيًا يُبرز فعالية النهج المقترح على موقعنا: \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}. كما تم إصدار الشفرة النصية والنماذج لدعم الأبحاث المستقبلية: \url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}.