تمييز الكلمات المتشابهة صوتيًا باستخدام ذاكرة بصرية-صوتية متعددة الرؤوس لقراءة الشفاه

التعرف على الكلام من حركة الشفتين الصامتة، والمعروفة باسم القراءة من الشفتين، هي مهمة صعبة بسبب 1) نقص المعلومات الذاتي في حركة الشفتين لتمثيل الكلام بشكل كامل، و2) وجود الكلمات المتشابهة في الحركات الشفوية (الهوموفونات) التي لها حركات شفوية مماثلة ولكن نطق مختلف. في هذا البحث، نحاول تخفيف التحديين المذكورين في القراءة من الشفتين من خلال اقتراح ذاكرة بصرية-صوتية متعددة الرؤوس (MVM). أولاً، يتم تدريب MVM باستخدام مجموعات بيانات بصرية-صوتية وتذكر التمثيلات الصوتية من خلال نمذجة العلاقات المتبادلة بين التمثيلات البصرية-الصوتية المتزامنة. في مرحلة الاستدلال، يمكن للإدخال البصري وحده استخراج التمثيل الصوتي المحفوظ من الذاكرة عن طريق فحص العلاقات المتبادلة التي تم تعلمها. وبالتالي، يمكن للنموذج الخاص بالقراءة من الشفتين تعويض النقص في المعلومات البصرية بالتمثيلات الصوتية المستخرجة. ثانياً، تتكون MVM من ذواكر مفاتيح متعددة الرؤوس لحفظ الخصائص البصرية وذاكرة قيمة واحدة لحفظ المعرفة الصوتية، وهي مصممة لتمييز الهوموفونات. باستخدام ذواكر المفاتيح المتعددة الرؤوس، تستخرج MVM خصائص صوتية محتملة من الذاكرة، مما يسمح للنموذج الخاص بالقراءة من الشفتين بأخذ إمكانية النطق الذي يمكن أن يمثله الإدخال الحركي للشفتين بعين الاعتبار. ويمكن اعتبار هذا أيضًا تنفيذًا واضحًا للتخصيص واحد إلى العديد (viseme-to-phoneme). بالإضافة إلى ذلك، يتم استخدام MVM على مستويات زمنية متعددة لأخذ السياق بعين الاعتبار عند استرجاع الذاكرة وتمييز الهوموفونات. تؤكد النتائج التجريبية الواسعة فعالية الطريقة المقترحة في القراءة من الشفتين وفي تمييز الهوموفونات.