il y a 2 mois
Reconnaissance robuste de la parole par supervision faible à grande échelle
Radford, Alec ; Kim, Jong Wook ; Xu, Tao ; Brockman, Greg ; McLeavey, Christine ; Sutskever, Ilya

Résumé
Nous étudions les capacités des systèmes de traitement de la parole formés simplement à prédire de grandes quantités de transcriptions d'audio sur Internet. Lorsqu'ils sont mis à l'échelle jusqu'à 680 000 heures de supervision multilingue et multitâche, les modèles résultants généralisent bien aux benchmarks standards et sont souvent compétitifs avec les résultats précédemment supervisés, mais dans un contexte de transfert zéro-shot sans nécessité d'ajustement fin. Comparés aux humains, ces modèles approchent leur précision et leur robustesse. Nous mettons à disposition des modèles et du code d'inférence pour servir de base à des travaux ultérieurs sur le traitement robuste de la parole.