القراءة الجزئية للشفاه للاعتراف باللغة الصوتية البصرية
يُعدّ التلاوة بالشفاه (Lipreading) عنصراً مهماً في نظام التعرف على الكلام المرئي-الصوتي. ومع ذلك، تُعتبر الشفاه عادةً نموذجاً موحداً في التلاوة بالشفاه، مما يتجاهل حقيقة أن كل جزء من الشفاه يركّز على خصائص مختلفة في الفم، وبالتالي لا يمكن للنموذج الشامل أن يناسب كل جزء بدقة. علاوةً على ذلك، تختلف السمات المستمدة من الشفاه ككل بشكل كبير بين المتكلمين المختلفين، ما يستدعي أن تكون قواعد البيانات التدريبية تحتوي على أكبر عدد ممكن من المتكلمين. في هذه الورقة، تم اقتراح طريقة جديدة تُعرف بـ (PBL) أو التلاوة بالشفاه القائمة على الأجزاء، لمعالجة التباين بين النموذج الشامل للشفاه وبين الأجزاء المنفصلة لها، وكذلك التبعية الزائدة للنماذج لعدد المتكلمين في مجموعة التدريب. تعتمد PBL على نمذجة الشفاه جزئياً واتخاذ تنبؤات مشتركة، حيث تُطبّق استراتيجية تقسيم موحدة على السمات التلافيفية (Convolutional Features) وتُنتج عدة نتائج فرعية على مستوى الأجزاء، والتي تُستخدم في التنبؤ النهائي. أُجريت تجارب على مجموعة بيانات كبيرة متاحة للعامة (LRW)، وعلى جزء منها (p-LRW، 65 كلمة)، بهدف محاكاة التعليمات التدريجية في البيئة العملية للروبوتات. وبلغت دقة الكلمات في PBL 82.8% على LRW و88.9% على p-LRW. وأخيراً، تم بناء نظام تعرف صوتي-مرئي من الطرف إلى الطرف باستخدام PBL، وحقق دقة قدرها 98.3% في التعرف على الكلمات على مجموعة LRW.