il y a 9 jours

BigSSL : Explorer le frontière de l'apprentissage semi-supervisé à grande échelle pour la reconnaissance automatique de la parole

Yu Zhang, Daniel S. Park, Wei Han, James Qin, Anmol Gulati, Joel Shor, Aren Jansen, Yuanzhong Xu, Yanping Huang, Shibo Wang, Zongwei Zhou, Bo Li, Min Ma, William Chan, Jiahui Yu, Yongqiang Wang, Liangliang Cao, Khe Chai Sim, Bhuvana Ramabhadran, Tara N. Sainath, Françoise Beaufays, Zhifeng Chen, Quoc V. Le, Chung-Cheng Chiu, Ruoming Pang, Yonghui Wu

Voir les détails de l'article

BigSSL : Explorer le frontière de l'apprentissage semi-supervisé à grande échelle pour la reconnaissance automatique de la parole

Résumé

Nous résumons les résultats de nombreuses initiatives basées sur des modèles énormes de reconnaissance automatique de la parole (ASR) pré-entraînés à l’aide de jeux de données non étiquetés de grande taille et diversifiés, comprenant environ un million d’heures d’audio. Nous constatons que la combinaison du pré-entraînement, de l’auto-entraînement (self-training) et de l’augmentation de la taille du modèle améliore considérablement l’efficacité des données, même pour des tâches extrêmement volumineuses comportant des dizaines de milliers d’heures de données étiquetées. En particulier, sur une tâche ASR avec 34 000 heures de données étiquetées, en fine-tunant un modèle Conformer pré-entraîné de 8 milliards de paramètres, nous parvenons à atteindre des performances de pointe (state-of-the-art, SoTA) avec seulement 3 % des données d’entraînement, et à surpasser significativement les performances actuelles de l’état de l’art avec l’ensemble complet des données. Nous rapportons également les bénéfices universels tirés de l’utilisation de modèles pré-entraînés et auto-entraînés à grande échelle sur un large éventail de tâches en aval, couvrant divers domaines de la parole et s’étendant sur plusieurs ordres de grandeur en taille de jeu de données, incluant l’obtention de performances de pointe sur de nombreuses benchmarks publics. En outre, nous exploitons les représentations apprises par les réseaux pré-entraînés pour atteindre des résultats de pointe sur des tâches non liées à l’ASR.