HyperAIHyperAI
منذ 2 أشهر

تعلم نموذج قراءة الشفاه الفعال دون عناء

Feng, Dalu ; Yang, Shuang ; Shan, Shiguang ; Chen, Xilin
تعلم نموذج قراءة الشفاه الفعال دون عناء
الملخص

القراءة الشفوية، المعروفة أيضًا بالتعرف على الكلام البصري، تهدف إلى التعرف على محتوى الكلام من مقاطع الفيديو من خلال تحليل حركات الشفتين. في السنوات الأخيرة، تم إحراز تقدم كبير في هذا المجال، مستفيدًا بشكل كبير من التقنيات المتقدمة للتعلم العميق والقواعد الضخمة للبيانات الخاصة بالقراءة الشفوية التي ظهرت مؤخرًا. أغلب الطرق الحالية حققت أداءً عاليًا ببناء شبكة عصبية معقدة، بالإضافة إلى استراتيجيات تدريب مخصصة تم تقديمها غالبًا بطريقة موجزة للغاية أو حتى إظهارها فقط في الكود المصدر. نجد أن استخدام هذه الاستراتيجيات بشكل صحيح يمكن دائمًا أن يجلب تحسينات مثيرة دون تغيير كبير في النموذج. نظرًا لتأثيرات هذه الاستراتيجيات غير القابلة للتغاضي عنها والحالة الصعبة الحالية لتدريب نموذج قراءة شفوية فعال، فقد أجرينا دراسة كمية شاملة وتحليلًا مقارنًا لأول مرة لعرض آثار الخيارات المختلفة للقراءة الشفوية. من خلال إدخال بعض التعديلات السهلة على خط الأنابيب الأساسي فقط، حققنا تحسنًا واضحًا في الأداء بنسبة 83.7٪ إلى 88.4٪ وبنسبة 38.2٪ إلى 55.7٪ على أكبر قاعدتين عامتين للبيانات المتاحة للقراءة الشفوية، وهما LRW وLRW-1000 على التوالي. هذه النتائج تعادل وحتى تتفوق على أفضل النتائج الموجودة حاليًا.注释:在阿拉伯语中,一些科技术语如“lip reading”(القراءة الشفوية)、“visual speech recognition”(التعرف على الكلام البصري)、“deep learning techniques”(تقنيات التعلم العميق)和“state-of-the-art results”(أفضل النتائج الموجودة حاليًا)都有通用的翻译方法。其他不太常见的术语,例如“baseline pipeline”(خط الأنابيب الأساسي),已经根据上下文进行了翻译。如果需要进一步的技术细节,可以在括号中标注原文。