HyperAIHyperAI

Command Palette

Search for a command to run...

SpecAugment: طريقة بسيطة لزيادة البيانات في التعرف التلقائي على الكلام

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

الملخص

نقدم SpecAugment، وهو طريقة بسيطة لزيادة بيانات التعرف على الكلام. يتم تطبيق SpecAugment مباشرة على مدخلات الميزات للشبكة العصبية (أي معاملات بنك المرشحات). تتكون سياسة زيادة البيانات من تشويف الميزات، وإخفاء كتل من قنوات التردد، وإخفاء كتل من خطوات الزمن. نطبق SpecAugment على شبكات الاستماع والانتباه والكتابة (Listen, Attend and Spell) للأعمال التي تتطلب التعرف على الكلام من البداية إلى النهاية. نحقق أداءً يتفوق على أفضل الأداء السابق في مهمتي LibriSpeech 960 ساعة وSwichboard 300 ساعة، حيث نتفوق على جميع الأعمال السابقة. في LibriSpeech، نحقق معدل خطأ الكلمات (WER) بنسبة 6.8٪ في مجموعة الاختبار الأخرى دون استخدام نموذج اللغة، ومعدل خطأ الكلمات بنسبة 5.8٪ عند استخدام الاندماج السطحي مع نموذج اللغة. هذا مقارنة بأفضل نظام هجين سابق حقق معدل خطأ الكلمات بنسبة 7.5٪. بالنسبة لـ Swichboard، نحقق معدلات خطأ الكلمات بنسبة 7.2٪/14.6٪ في جزء Swichboard/CallHome من مجموعة اختبار Hub5'00 دون استخدام نموذج اللغة، ومعدلات خطأ الكلمات بنسبة 6.8٪/14.1٪ عند استخدام الاندماج السطحي، مما يقارن بأفضل نظام هجين سابق حقق معدلات خطأ الكلمات بنسبة 8.3٪/17.3٪ (WER).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp