منذ 8 أشهر

الملخص

القراءة الشفوية، المعروفة أيضًا بالتعرف على الكلام البصري، تهدف إلى التعرف على محتوى الكلام من مقاطع الفيديو من خلال تحليل حركات الشفتين. في السنوات الأخيرة، تم إحراز تقدم كبير في هذا المجال، مستفيدًا بشكل كبير من التقنيات المتقدمة للتعلم العميق والقواعد الضخمة للبيانات الخاصة بالقراءة الشفوية التي ظهرت مؤخرًا. أغلب الطرق الحالية حققت أداءً عاليًا ببناء شبكة عصبية معقدة، بالإضافة إلى استراتيجيات تدريب مخصصة تم تقديمها غالبًا بطريقة موجزة للغاية أو حتى إظهارها فقط في الكود المصدر. نجد أن استخدام هذه الاستراتيجيات بشكل صحيح يمكن دائمًا أن يجلب تحسينات مثيرة دون تغيير كبير في النموذج. نظرًا لتأثيرات هذه الاستراتيجيات غير القابلة للتغاضي عنها والحالة الصعبة الحالية لتدريب نموذج قراءة شفوية فعال، فقد أجرينا دراسة كمية شاملة وتحليلًا مقارنًا لأول مرة لعرض آثار الخيارات المختلفة للقراءة الشفوية. من خلال إدخال بعض التعديلات السهلة على خط الأنابيب الأساسي فقط، حققنا تحسنًا واضحًا في الأداء بنسبة 83.7٪ إلى 88.4٪ وبنسبة 38.2٪ إلى 55.7٪ على أكبر قاعدتين عامتين للبيانات المتاحة للقراءة الشفوية، وهما LRW وLRW-1000 على التوالي. هذه النتائج تعادل وحتى تتفوق على أفضل النتائج الموجودة حاليًا.注释：在阿拉伯语中，一些科技术语如“lip reading”（القراءة الشفوية）、“visual speech recognition”（التعرف على الكلام البصري）、“deep learning techniques”（تقنيات التعلم العميق）和“state-of-the-art results”（أفضل النتائج الموجودة حاليًا）都有通用的翻译方法。其他不太常见的术语，例如“baseline pipeline”（خط الأنابيب الأساسي），已经根据上下文进行了翻译。如果需要进一步的技术细节，可以在括号中标注原文。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار