منذ 2 أشهر
التعرف الصوتي القوي عبر الإشراف الضعيف على نطاق واسع
Radford, Alec ; Kim, Jong Wook ; Xu, Tao ; Brockman, Greg ; McLeavey, Christine ; Sutskever, Ilya

الملخص
ندرس قدرات أنظمة معالجة الكلام التي تم تدريبها ببساطة على التنبؤ بكميات كبيرة من نصوص الصوت على الإنترنت. عند توسيع نطاقها إلى 680,000 ساعة من الإشراف متعدد اللغات والمهام، فإن النماذج الناتجة تعمم بشكل جيد على المعايير القياسية وغالبًا ما تكون تنافسية مع النتائج السابقة التي تم إشراف كامل عليها ولكن في سياق نقل بدون تصويب (zero-shot transfer) دون الحاجة إلى أي تعديل دقيق. عند مقارنتها بالبشر، تقترب هذه النماذج من دقتهم ومتانتهم. نحن بصدد إطلاق النماذج وكود الاستدلال لتقديم أساس للعمل المستقبلي في معالجة الكلام المتين.