الملخص

تلقى التعرف على الكلام السمعي البصري اهتمامًا كبيرًا بسبب مقاومته للضوضاء الصوتية. مؤخرًا، تحسنت أداء أنظمة التعرف على الكلام التلقائي، والبصري، والسمعيبصري (ASR، VSR، وAV-ASR على التوالي) بشكل كبير، وذلك أساسًا بفضل استخدام نماذج أكبر ومجموعات تدريب أوسع. ومع ذلك، فإن تصنيف مجموعات البيانات بدقة يستغرق وقتًا طويلاً ويكون مكلفًا. لذلك، في هذا البحث، ندرس استخدام النصوص المكتوبة تلقائيًا لمجموعات البيانات غير المصنفة لزيادة حجم مجموعة التدريب. لهذا الغرض، نستخدم نماذج ASR مسبقة التدريب متاحة للعامة لكتابة النصوص تلقائيًا لمجموعات البيانات غير المصنفة مثل AVSpeech وVoxCeleb2. ثم نقوم بتدريب نماذج ASR وVSR وAV-ASR على مجموعة التدريب المعززة، والتي تتكون من مجموعات البيانات LRS2 وLRS3 بالإضافة إلى البيانات الإضافية التي تم كتابتها تلقائيًا. نوضح أن زيادة حجم مجموعة التدريب، وهي ظاهرة حديثة في الأدب العلمي، تؤدي إلى انخفاض معدل الخطأ الكلامي (WER) رغم استخدام النصوص المكتوبة بتقنية ضوضائية. يحقق النموذج المقترح أداءً جديدًا يتفوق على أفضل ما هو معروف في مجال AV-ASR على LRS2 وLRS3. وبشكل خاص، يحقق معدل خطأ كلامي (WER) قدره 0.9% على LRS3، وهو تحسن نسبي بنسبة 30% عن أفضل الطُرق الحالية المعروفة، ويتفوق على الطرق التي تم تدريبها على مجموعات بيانات غير متاحة للعامة تحتوي على 26 مرة أكثر من بيانات التدريب.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

Auto-AVSR: التعرف على الكلام السمعي البصري باستخدام العلامات التلقائية

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Auto-AVSR: التعرف على الكلام السمعي البصري باستخدام العلامات التلقائية

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Auto-AVSR: التعرف على الكلام السمعي البصري باستخدام العلامات التلقائية

Ma Pingchuan ; Haliassos Alexandros ; Fernandez-Lopez Adriana ; Chen Honglie ; Petridis Stavros ; Pantic Maja

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters