منذ 9 أيام

BigSSL: استكشاف الحدود المتقدمة للتعلم شبه المراقب على نطاق واسع للإعراب الصوتي التلقائي

Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, Yonghui Wu

عرض تفاصيل الورقة البحثية

BigSSL: استكشاف الحدود المتقدمة للتعلم شبه المراقب على نطاق واسع للإعراب الصوتي التلقائي

الملخص

نلخّص نتائج مجموعة من الجهود التي تعتمد على نماذج ضخمة للتمييز التلقائي للصوت (ASR) مُدرّبة مسبقًا باستخدام مجموعات بيانات غير مُوسومة كبيرة ومتنوعة، تضم حوالي مليون ساعة من الصوت. ونجد أن الجمع بين التدريب المسبق، والتدريب الذاتي، وزيادة حجم النموذج يُحسّن بشكل كبير كفاءة البيانات، حتى في المهام الضخمة جدًا التي تتطلب عشرات الآلاف من الساعات من البيانات المُوسومة. وبشكل خاص، على مهمة ASR تضم 34 ألف ساعة من البيانات المُوسومة، يمكننا تحقيق أداءً مُتفوقًا على الحد الأقصى (SoTA) باستخدام فقط 3% من بيانات التدريب، وتحسين أداء SoTA بشكل ملحوظ عند استخدام المجموعة الكاملة لبيانات التدريب. كما نُبلّغ عن الفوائد الشاملة التي تُحقّقها استخدام النماذج الكبيرة المُدرّبة مسبقًا والخاضعة للتدريب الذاتي في مجموعة واسعة من المهام اللاحقة، والتي تغطي طيفًا واسعًا من مجالات الصوت وتمتد عبر طبقات مختلفة من أحجام المجموعات البيانات، بما في ذلك تحقيق أداء مُتفوق على العديد من المعايير العامة. علاوة على ذلك، نستخدم التمثيلات المُكتسبة من الشبكات المُدرّبة مسبقًا لتحقيق نتائج مُتفوّقة على المهام غير المتعلقة بـ ASR.