Command Palette
Search for a command to run...
SpeechStew: امزج ببساطة جميع بيانات التعرف على الصوت المتاحة لتدريب شبكة عصبية كبيرة واحدة
SpeechStew: امزج ببساطة جميع بيانات التعرف على الصوت المتاحة لتدريب شبكة عصبية كبيرة واحدة
William Chan Daniel Park Chris Lee Yu Zhang Quoc Le Mohammad Norouzi
الملخص
نقدّم نموذج التعرف على الصوت SpeechStew، الذي تم تدريبه على مجموعة متنوعة من مجموعات بيانات التعرف على الصوت المتاحة للجمهور: AMI، وBroadcast News، وCommon Voice، وLibriSpeech، وSwitchboard/Fisher، وTedlium، وWall Street Journal. يُدمج SpeechStew جميع هذه المجموعات معًا بشكل مباشر، دون أي إعادة وزن خاص أو موازنة بين المجموعات. ويحقق SpeechStew نتائج من نوع SoTA أو قريبة من SoTA في مجموعة متنوعة من المهام، دون الحاجة إلى استخدام نموذج لغوي خارجي. تشمل نتائجنا معدل خطأ كلام (WER) بنسبة 9.0% على AMI-IHM، و4.7% على Switchboard، و8.3% على CallHome، و1.3% على WSJ، وهي نتائج تفوق بوضوح الأبحاث السابقة التي تعتمد على نماذج لغوية قوية خارجية. كما نُظهر أن SpeechStew يتعلم تمثيلات قوية للتعلم الانتقالي (transfer learning). وقد قمنا بتحسين نموذج SpeechStew على مجموعة بيانات صوتية ذات موارد منخفضة ومشوّشة، وهي CHiME-6، وحققنا معدل خطأ كلام بنسبة 38.9% دون استخدام نموذج لغوي، مقارنةً بنسبة 38.6% التي حققها نموذج قوي يعتمد على HMM مع نموذج لغوي.