G-Augment: Suche nach der Meta-Struktur von Daten-Augmentierungs-Politiken für ASR

Datenaugmentierung ist eine weit verbreitete Technik, um Robustheit im Training von automatischen Spracherkennungssystemen (ASR) zu gewährleisten. Trotz der zunehmenden Automatisierung und des „end-to-end“-Ansatzes im ASR-Training bleibt die Datenaugmentierungsstrategie (d.h. welche Augmentierungsfunktionen verwendet werden und wie sie angewendet werden) nach wie vor handwerklich gestaltet. Wir stellen Graph-Augment vor, eine Methode, die den Augmentierungsraum als gerichtete azyklische Graphen (DAGs) definiert und über diesen Raum sucht, um die Augmentierungsstrategie selbst zu optimieren. Wir zeigen, dass bei gleichem Rechenaufwand die von G-Augment generierten Strategien im Vergleich zu durch zufällige Suche ermittelten SpecAugment-Strategien auf den Feinabstimmungsaufgaben des CHiME-6- und AMI-Datensatzes eine bessere Leistung erzielen. G-Augment erreicht zudem eine neue state-of-the-art-Performance bei der ASR-Auswertung auf dem CHiME-6-Datensatz (30,7 % WER). Darüber hinaus demonstrieren wir, dass G-Augment-Strategien gegenüber zufällig gesuchten SpecAugment-Strategien eine bessere Transferfähigkeit bei unterschiedlichen Trainingsansätzen – von warm-start zu cold-start – sowie bei variierender Modellgröße aufweisen.