HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم نموذج قراءة الشفاه الفعال دون عناء

Feng Dalu ; Yang Shuang ; Shan Shiguang ; Chen Xilin

الملخص

القراءة الشفوية، المعروفة أيضًا بالتعرف على الكلام البصري، تهدف إلى التعرف على محتوى الكلام من مقاطع الفيديو من خلال تحليل حركات الشفتين. في السنوات الأخيرة، تم إحراز تقدم كبير في هذا المجال، مستفيدًا بشكل كبير من التقنيات المتقدمة للتعلم العميق والقواعد الضخمة للبيانات الخاصة بالقراءة الشفوية التي ظهرت مؤخرًا. أغلب الطرق الحالية حققت أداءً عاليًا ببناء شبكة عصبية معقدة، بالإضافة إلى استراتيجيات تدريب مخصصة تم تقديمها غالبًا بطريقة موجزة للغاية أو حتى إظهارها فقط في الكود المصدر. نجد أن استخدام هذه الاستراتيجيات بشكل صحيح يمكن دائمًا أن يجلب تحسينات مثيرة دون تغيير كبير في النموذج. نظرًا لتأثيرات هذه الاستراتيجيات غير القابلة للتغاضي عنها والحالة الصعبة الحالية لتدريب نموذج قراءة شفوية فعال، فقد أجرينا دراسة كمية شاملة وتحليلًا مقارنًا لأول مرة لعرض آثار الخيارات المختلفة للقراءة الشفوية. من خلال إدخال بعض التعديلات السهلة على خط الأنابيب الأساسي فقط، حققنا تحسنًا واضحًا في الأداء بنسبة 83.7٪ إلى 88.4٪ وبنسبة 38.2٪ إلى 55.7٪ على أكبر قاعدتين عامتين للبيانات المتاحة للقراءة الشفوية، وهما LRW وLRW-1000 على التوالي. هذه النتائج تعادل وحتى تتفوق على أفضل النتائج الموجودة حاليًا.注释:在阿拉伯语中,一些科技术语如“lip reading”(القراءة الشفوية)、“visual speech recognition”(التعرف على الكلام البصري)、“deep learning techniques”(تقنيات التعلم العميق)和“state-of-the-art results”(أفضل النتائج الموجودة حاليًا)都有通用的翻译方法。其他不太常见的术语,例如“baseline pipeline”(خط الأنابيب الأساسي),已经根据上下文进行了翻译。如果需要进一步的技术细节,可以在括号中标注原文。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تعلم نموذج قراءة الشفاه الفعال دون عناء | مستندات | HyperAI