HyperAIHyperAI

Command Palette

Search for a command to run...

القراءة الجزئية للشفاه للاعتراف باللغة الصوتية البصرية

Bing Yang Hong Liu Ziling Miao

الملخص

يُعدّ التلاوة بالشفاه (Lipreading) عنصراً مهماً في نظام التعرف على الكلام المرئي-الصوتي. ومع ذلك، تُعتبر الشفاه عادةً نموذجاً موحداً في التلاوة بالشفاه، مما يتجاهل حقيقة أن كل جزء من الشفاه يركّز على خصائص مختلفة في الفم، وبالتالي لا يمكن للنموذج الشامل أن يناسب كل جزء بدقة. علاوةً على ذلك، تختلف السمات المستمدة من الشفاه ككل بشكل كبير بين المتكلمين المختلفين، ما يستدعي أن تكون قواعد البيانات التدريبية تحتوي على أكبر عدد ممكن من المتكلمين. في هذه الورقة، تم اقتراح طريقة جديدة تُعرف بـ (PBL) أو التلاوة بالشفاه القائمة على الأجزاء، لمعالجة التباين بين النموذج الشامل للشفاه وبين الأجزاء المنفصلة لها، وكذلك التبعية الزائدة للنماذج لعدد المتكلمين في مجموعة التدريب. تعتمد PBL على نمذجة الشفاه جزئياً واتخاذ تنبؤات مشتركة، حيث تُطبّق استراتيجية تقسيم موحدة على السمات التلافيفية (Convolutional Features) وتُنتج عدة نتائج فرعية على مستوى الأجزاء، والتي تُستخدم في التنبؤ النهائي. أُجريت تجارب على مجموعة بيانات كبيرة متاحة للعامة (LRW)، وعلى جزء منها (p-LRW، 65 كلمة)، بهدف محاكاة التعليمات التدريجية في البيئة العملية للروبوتات. وبلغت دقة الكلمات في PBL 82.8% على LRW و88.9% على p-LRW. وأخيراً، تم بناء نظام تعرف صوتي-مرئي من الطرف إلى الطرف باستخدام PBL، وحقق دقة قدرها 98.3% في التعرف على الكلمات على مجموعة LRW.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp