التعرف على الكلام الصوتي البصري المدعوم برسم بياني للشفت باستخدام التكامل المزدوج المتزامن

أظهرت الدراسات الحالية أن استخلاص السمات البصرية الممثلة ودمج الوسائط الصوتية والبصرية بشكل فعّال يُعدان أمرًا بالغ الأهمية لتمييز الكلام باستخدام الوسائط الصوتية والبصرية (AVSR)، لكن هذين الجانبين ما زالا يشكلان تحديين كبيرين. ولحل هذه التحديات، نقترح طريقة جديدة لـ AVSR تعتمد على رسم بياني للشفاه مع دمج مزدوج الاتجاه ومتزامن. أولاً، يتم استخدام تدفق بصري هجين يجمع بين فرع الصورة وفرع الرسم البياني لالتقاط السمات البصرية التمييزية. وبشكل خاص، يستخدم الرسم البياني للشفاه الروابط الطبيعية والديناميكية بين نقاط الشفاه الأساسية لتمثيل شكل الشفاه، ويُلتقط التطور الزمني للرسم البياني للشفاه باستخدام شبكات الت convolution البيانية المتبعة بوحدات التكرار ذات البوابة الثنائية الاتجاه. ثانيًا، يُدمج التدفق البصري الهجين مع التدفق الصوتي من خلال آلية دمج متزامن ثنائي الاتجاه تعتمد على الانتباه، مما يسمح بتقديم تفاعل ثنائي الاتجاه بين المعلومات، ويساعد في حل مشكلة عدم التزامن بين الوسائط أثناء عملية الدمج. أظهرت النتائج التجريبية على مجموعة بيانات LRW-BBC أن طريقة التصميم المقترحة تتفوّق على الطريقة الأساسية لـ AVSR النهائية في ظل ظروف نظيفة ومشوشة على حد سواء.