HyperAIHyperAI

Command Palette

Search for a command to run...

Auto-AVSR: التعرف على الكلام السمعي البصري باستخدام العلامات التلقائية

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

الملخص

تلقى التعرف على الكلام السمعي البصري اهتمامًا كبيرًا بسبب مقاومته للضوضاء الصوتية. مؤخرًا، تحسنت أداء أنظمة التعرف على الكلام التلقائي، والبصري، والسمعيبصري (ASR، VSR، وAV-ASR على التوالي) بشكل كبير، وذلك أساسًا بفضل استخدام نماذج أكبر ومجموعات تدريب أوسع. ومع ذلك، فإن تصنيف مجموعات البيانات بدقة يستغرق وقتًا طويلاً ويكون مكلفًا. لذلك، في هذا البحث، ندرس استخدام النصوص المكتوبة تلقائيًا لمجموعات البيانات غير المصنفة لزيادة حجم مجموعة التدريب. لهذا الغرض، نستخدم نماذج ASR مسبقة التدريب متاحة للعامة لكتابة النصوص تلقائيًا لمجموعات البيانات غير المصنفة مثل AVSpeech وVoxCeleb2. ثم نقوم بتدريب نماذج ASR وVSR وAV-ASR على مجموعة التدريب المعززة، والتي تتكون من مجموعات البيانات LRS2 وLRS3 بالإضافة إلى البيانات الإضافية التي تم كتابتها تلقائيًا. نوضح أن زيادة حجم مجموعة التدريب، وهي ظاهرة حديثة في الأدب العلمي، تؤدي إلى انخفاض معدل الخطأ الكلامي (WER) رغم استخدام النصوص المكتوبة بتقنية ضوضائية. يحقق النموذج المقترح أداءً جديدًا يتفوق على أفضل ما هو معروف في مجال AV-ASR على LRS2 وLRS3. وبشكل خاص، يحقق معدل خطأ كلامي (WER) قدره 0.9% على LRS3، وهو تحسن نسبي بنسبة 30% عن أفضل الطُرق الحالية المعروفة، ويتفوق على الطرق التي تم تدريبها على مجموعات بيانات غير متاحة للعامة تحتوي على 26 مرة أكثر من بيانات التدريب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp