HyperAIHyperAI
vor 17 Tagen

ImportantAug: Ein Data Augmentation Agent für Sprache

Viet Anh Trinh, Hassan Salami Kavaki, Michael I Mandel
ImportantAug: Ein Data Augmentation Agent für Sprache
Abstract

Wir stellen ImportantAug vor, eine Technik zur Erweiterung von Trainingsdaten für Spracherkennungs- und -klassifizierungsmodelle, bei der Rauschen nur in unwichtigen Bereichen der Sprache hinzugefügt wird, nicht jedoch in wichtigen Bereichen. Die Wichtigkeit jedes Sprechereignisses wird von einem Daten-Augmentierungs-Agenten vorhergesagt, der darauf trainiert ist, die Menge des hinzugefügten Rauschens zu maximieren, gleichzeitig aber den Einfluss auf die Erkennungsleistung zu minimieren. Die Wirksamkeit unserer Methode wird anhand der zweiten Version des Google Speech Commands (GSC)-Datensatzes veranschaulicht. Auf dem standardisierten GSC-Testset erreicht sie eine relative Fehlerreduzierung um 23,3 % gegenüber der herkömmlichen Rauschaugmentierung, bei der Rauschen ohne Berücksichtigung der effektivsten Stellen auf die Sprache aufgebracht wird. Zudem zeigt sie eine Fehlerreduzierung um 25,4 % im Vergleich zu einer Baseline ohne Daten-Augmentierung. Darüber hinaus übertrifft ImportantAug sowohl die herkömmliche Rauschaugmentierung als auch die Baseline auf zwei Testsets, die zusätzlichen Rauschen enthalten.