G-Augment : Recherche de la Méta-Structure des Politiques de Transformation de Données pour la Reconnaissance Automatique de Parole

L’augmentation de données est une technique couramment utilisée pour renforcer la robustesse de l’entraînement des systèmes de reconnaissance automatique de la parole (ASR). Toutefois, même si une grande partie du processus d’entraînement ASR est devenue automatisée et davantage « end-to-end », la politique d’augmentation de données (c’est-à-dire les fonctions d’augmentation à utiliser et la manière de les appliquer) reste encore définie manuellement. Nous présentons Graph-Augment, une méthode qui modélise l’espace d’augmentation sous forme de graphes orientés acycliques (DAG) et permet de rechercher efficacement dans cet espace afin d’optimiser automatiquement la politique d’augmentation. Nous démontrons que, sous un budget computationnel identique, les politiques générées par Graph-Augment surpassent celles obtenues par recherche aléatoire sur SpecAugment dans des tâches de fine-tuning sur les corpus CHiME-6 et AMI. Graph-Augment établit également un nouveau record d’état de l’art en ASR sur l’ensemble d’évaluation CHiME-6 (30,7 % d’erreur de mot, WER). Nous montrons également que les politiques de Graph-Augment présentent de meilleures propriétés de transfert, qu’elles soient appliquées à partir d’un entraînement « warm-start » vers un « cold-start », ou dans des configurations de tailles de modèles variées, comparées aux politiques de SpecAugment obtenues par recherche aléatoire.