HyperAIHyperAI
منذ 17 أيام

SpeechStew: امزج ببساطة جميع بيانات التعرف على الصوت المتاحة لتدريب شبكة عصبية كبيرة واحدة

William Chan, Daniel Park, Chris Lee, Yu Zhang, Quoc Le, Mohammad Norouzi
SpeechStew: امزج ببساطة جميع بيانات التعرف على الصوت المتاحة لتدريب شبكة عصبية كبيرة واحدة
الملخص

نقدّم نموذج التعرف على الصوت SpeechStew، الذي تم تدريبه على مجموعة متنوعة من مجموعات بيانات التعرف على الصوت المتاحة للجمهور: AMI، وBroadcast News، وCommon Voice، وLibriSpeech، وSwitchboard/Fisher، وTedlium، وWall Street Journal. يُدمج SpeechStew جميع هذه المجموعات معًا بشكل مباشر، دون أي إعادة وزن خاص أو موازنة بين المجموعات. ويحقق SpeechStew نتائج من نوع SoTA أو قريبة من SoTA في مجموعة متنوعة من المهام، دون الحاجة إلى استخدام نموذج لغوي خارجي. تشمل نتائجنا معدل خطأ كلام (WER) بنسبة 9.0% على AMI-IHM، و4.7% على Switchboard، و8.3% على CallHome، و1.3% على WSJ، وهي نتائج تفوق بوضوح الأبحاث السابقة التي تعتمد على نماذج لغوية قوية خارجية. كما نُظهر أن SpeechStew يتعلم تمثيلات قوية للتعلم الانتقالي (transfer learning). وقد قمنا بتحسين نموذج SpeechStew على مجموعة بيانات صوتية ذات موارد منخفضة ومشوّشة، وهي CHiME-6، وحققنا معدل خطأ كلام بنسبة 38.9% دون استخدام نموذج لغوي، مقارنةً بنسبة 38.6% التي حققها نموذج قوي يعتمد على HMM مع نموذج لغوي.

SpeechStew: امزج ببساطة جميع بيانات التعرف على الصوت المتاحة لتدريب شبكة عصبية كبيرة واحدة | أحدث الأوراق البحثية | HyperAI