HyperAIHyperAI

Command Palette

Search for a command to run...

BigSSL : Explorer le frontière de l'apprentissage semi-supervisé à grande échelle pour la reconnaissance automatique de la parole

Résumé

Nous résumons les résultats de nombreuses initiatives basées sur des modèles énormes de reconnaissance automatique de la parole (ASR) pré-entraînés à l’aide de jeux de données non étiquetés de grande taille et diversifiés, comprenant environ un million d’heures d’audio. Nous constatons que la combinaison du pré-entraînement, de l’auto-entraînement (self-training) et de l’augmentation de la taille du modèle améliore considérablement l’efficacité des données, même pour des tâches extrêmement volumineuses comportant des dizaines de milliers d’heures de données étiquetées. En particulier, sur une tâche ASR avec 34 000 heures de données étiquetées, en fine-tunant un modèle Conformer pré-entraîné de 8 milliards de paramètres, nous parvenons à atteindre des performances de pointe (state-of-the-art, SoTA) avec seulement 3 % des données d’entraînement, et à surpasser significativement les performances actuelles de l’état de l’art avec l’ensemble complet des données. Nous rapportons également les bénéfices universels tirés de l’utilisation de modèles pré-entraînés et auto-entraînés à grande échelle sur un large éventail de tâches en aval, couvrant divers domaines de la parole et s’étendant sur plusieurs ordres de grandeur en taille de jeu de données, incluant l’obtention de performances de pointe sur de nombreuses benchmarks publics. En outre, nous exploitons les représentations apprises par les réseaux pré-entraînés pour atteindre des résultats de pointe sur des tâches non liées à l’ASR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BigSSL : Explorer le frontière de l'apprentissage semi-supervisé à grande échelle pour la reconnaissance automatique de la parole | Articles | HyperAI