HyperAIHyperAI
il y a 2 mois

Reconnaissance robuste de la parole par supervision faible à grande échelle

Radford, Alec ; Kim, Jong Wook ; Xu, Tao ; Brockman, Greg ; McLeavey, Christine ; Sutskever, Ilya
Reconnaissance robuste de la parole par supervision faible à grande échelle
Résumé

Nous étudions les capacités des systèmes de traitement de la parole formés simplement à prédire de grandes quantités de transcriptions d'audio sur Internet. Lorsqu'ils sont mis à l'échelle jusqu'à 680 000 heures de supervision multilingue et multitâche, les modèles résultants généralisent bien aux benchmarks standards et sont souvent compétitifs avec les résultats précédemment supervisés, mais dans un contexte de transfert zéro-shot sans nécessité d'ajustement fin. Comparés aux humains, ces modèles approchent leur précision et leur robustesse. Nous mettons à disposition des modèles et du code d'inférence pour servir de base à des travaux ultérieurs sur le traitement robuste de la parole.

Reconnaissance robuste de la parole par supervision faible à grande échelle | Articles de recherche récents | HyperAI