HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechStew: امزج ببساطة جميع بيانات التعرف على الصوت المتاحة لتدريب شبكة عصبية كبيرة واحدة

William Chan Daniel Park Chris Lee Yu Zhang Quoc Le Mohammad Norouzi

الملخص

نقدّم نموذج التعرف على الصوت SpeechStew، الذي تم تدريبه على مجموعة متنوعة من مجموعات بيانات التعرف على الصوت المتاحة للجمهور: AMI، وBroadcast News، وCommon Voice، وLibriSpeech، وSwitchboard/Fisher، وTedlium، وWall Street Journal. يُدمج SpeechStew جميع هذه المجموعات معًا بشكل مباشر، دون أي إعادة وزن خاص أو موازنة بين المجموعات. ويحقق SpeechStew نتائج من نوع SoTA أو قريبة من SoTA في مجموعة متنوعة من المهام، دون الحاجة إلى استخدام نموذج لغوي خارجي. تشمل نتائجنا معدل خطأ كلام (WER) بنسبة 9.0% على AMI-IHM، و4.7% على Switchboard، و8.3% على CallHome، و1.3% على WSJ، وهي نتائج تفوق بوضوح الأبحاث السابقة التي تعتمد على نماذج لغوية قوية خارجية. كما نُظهر أن SpeechStew يتعلم تمثيلات قوية للتعلم الانتقالي (transfer learning). وقد قمنا بتحسين نموذج SpeechStew على مجموعة بيانات صوتية ذات موارد منخفضة ومشوّشة، وهي CHiME-6، وحققنا معدل خطأ كلام بنسبة 38.9% دون استخدام نموذج لغوي، مقارنةً بنسبة 38.6% التي حققها نموذج قوي يعتمد على HMM مع نموذج لغوي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp