HyperAIHyperAI
منذ 10 أيام

الاستماع إلى الشفاه: تحسين قراءة الشفاه من خلال تقطيع معالجات التعرف على الكلام

Ya Zhao, Rui Xu, Xinchao Wang, Peng Hou, Haihong Tang, Mingli Song
الاستماع إلى الشفاه: تحسين قراءة الشفاه من خلال تقطيع معالجات التعرف على الكلام
الملخص

شهدت قراءة الشفاه تطوراً غير مسبوق في السنوات الأخيرة بفضل التعلم العميق وتوفر مجموعات بيانات كبيرة الحجم. وعلى الرغم من النتائج المثيرة التي تم تحقيقها، تظل أداء قراءة الشفاه أقل من أداء التعرف على الكلام، وذلك بسبب الطبيعة الغامضة للحركات الشفوية التي تجعل من الصعب استخلاص ميزات تمييزية من مقاطع الفيديو الخاصة بالحركة الشفوية. في هذا البحث، نقترح طريقة جديدة تُسمى "قراءة الشفاه من خلال الكلام" (Lip by Speech - LIBS)، تهدف إلى تعزيز قراءة الشفاه من خلال التعلم من نماذج التعرف على الكلام. ويعتمد هذا النهج على الفكرة القائلة بأن الميزات المستخرجة من نماذج التعرف على الكلام قد توفر أدلة مكملة وتمييزية، وهي صعبة الحصول عليها من الحركات الدقيقة للشفاه، مما يسهل تدريب نماذج قراءة الشفاه. ويتم تحقيق ذلك تحديداً من خلال استخلاص معرفة متعددة الحجم (multi-granularity knowledge) من نماذج التعرف على الكلام ونقلها إلى نماذج قراءة الشفاه. ولتنفيذ هذه عملية نقل المعرفة عبر الوسائط المختلفة، نستخدم خطة توحيد فعّالة للتعامل مع الفروق في طول المقاطع الصوتية والمرئية، بالإضافة إلى استراتيجية تصفية مبتكرة لتحسين توقعات نموذج التعرف على الكلام. وقد حققت الطريقة المقترحة أداءً متقدماً جديداً على مستوى التقنيات الحالية في مجموعتي بيانات CMLR وLRS2، حيث تفوقت على النموذج الأساسي بنسبة 7.66% و2.75% على التوالي من حيث معدل خطأ الحروف (Character Error Rate).