BigSSL: استكشاف الحدود المتقدمة للتعلم شبه المراقب على نطاق واسع للإعراب الصوتي التلقائي

نلخّص نتائج مجموعة من الجهود التي تعتمد على نماذج ضخمة للتمييز التلقائي للصوت (ASR) مُدرّبة مسبقًا باستخدام مجموعات بيانات غير مُوسومة كبيرة ومتنوعة، تضم حوالي مليون ساعة من الصوت. ونجد أن الجمع بين التدريب المسبق، والتدريب الذاتي، وزيادة حجم النموذج يُحسّن بشكل كبير كفاءة البيانات، حتى في المهام الضخمة جدًا التي تتطلب عشرات الآلاف من الساعات من البيانات المُوسومة. وبشكل خاص، على مهمة ASR تضم 34 ألف ساعة من البيانات المُوسومة، يمكننا تحقيق أداءً مُتفوقًا على الحد الأقصى (SoTA) باستخدام فقط 3% من بيانات التدريب، وتحسين أداء SoTA بشكل ملحوظ عند استخدام المجموعة الكاملة لبيانات التدريب. كما نُبلّغ عن الفوائد الشاملة التي تُحقّقها استخدام النماذج الكبيرة المُدرّبة مسبقًا والخاضعة للتدريب الذاتي في مجموعة واسعة من المهام اللاحقة، والتي تغطي طيفًا واسعًا من مجالات الصوت وتمتد عبر طبقات مختلفة من أحجام المجموعات البيانات، بما في ذلك تحقيق أداء مُتفوق على العديد من المعايير العامة. علاوة على ذلك، نستخدم التمثيلات المُكتسبة من الشبكات المُدرّبة مسبقًا لتحقيق نتائج مُتفوّقة على المهام غير المتعلقة بـ ASR.