HyperAIHyperAI

Command Palette

Search for a command to run...

G-Augment : Recherche de la Méta-Structure des Politiques de Transformation de Données pour la Reconnaissance Automatique de Parole

Gary Wang Ekin D.Cubuk Andrew Rosenberg Shuyang Cheng Ron J. Weiss Bhuvana Ramabhadran Pedro J. Moreno Quoc V. Le Daniel S. Park

Résumé

L’augmentation de données est une technique couramment utilisée pour renforcer la robustesse de l’entraînement des systèmes de reconnaissance automatique de la parole (ASR). Toutefois, même si une grande partie du processus d’entraînement ASR est devenue automatisée et davantage « end-to-end », la politique d’augmentation de données (c’est-à-dire les fonctions d’augmentation à utiliser et la manière de les appliquer) reste encore définie manuellement. Nous présentons Graph-Augment, une méthode qui modélise l’espace d’augmentation sous forme de graphes orientés acycliques (DAG) et permet de rechercher efficacement dans cet espace afin d’optimiser automatiquement la politique d’augmentation. Nous démontrons que, sous un budget computationnel identique, les politiques générées par Graph-Augment surpassent celles obtenues par recherche aléatoire sur SpecAugment dans des tâches de fine-tuning sur les corpus CHiME-6 et AMI. Graph-Augment établit également un nouveau record d’état de l’art en ASR sur l’ensemble d’évaluation CHiME-6 (30,7 % d’erreur de mot, WER). Nous montrons également que les politiques de Graph-Augment présentent de meilleures propriétés de transfert, qu’elles soient appliquées à partir d’un entraînement « warm-start » vers un « cold-start », ou dans des configurations de tailles de modèles variées, comparées aux politiques de SpecAugment obtenues par recherche aléatoire.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
G-Augment : Recherche de la Méta-Structure des Politiques de Transformation de Données pour la Reconnaissance Automatique de Parole | Articles | HyperAI