HyperAIHyperAI
منذ 2 أشهر

التعرف الصوتي القوي عبر الإشراف الضعيف على نطاق واسع

Radford, Alec ; Kim, Jong Wook ; Xu, Tao ; Brockman, Greg ; McLeavey, Christine ; Sutskever, Ilya
التعرف الصوتي القوي عبر الإشراف الضعيف على نطاق واسع
الملخص

ندرس قدرات أنظمة معالجة الكلام التي تم تدريبها ببساطة على التنبؤ بكميات كبيرة من نصوص الصوت على الإنترنت. عند توسيع نطاقها إلى 680,000 ساعة من الإشراف متعدد اللغات والمهام، فإن النماذج الناتجة تعمم بشكل جيد على المعايير القياسية وغالبًا ما تكون تنافسية مع النتائج السابقة التي تم إشراف كامل عليها ولكن في سياق نقل بدون تصويب (zero-shot transfer) دون الحاجة إلى أي تعديل دقيق. عند مقارنتها بالبشر، تقترب هذه النماذج من دقتهم ومتانتهم. نحن بصدد إطلاق النماذج وكود الاستدلال لتقديم أساس للعمل المستقبلي في معالجة الكلام المتين.