SpecAugment: Eine einfache Datenverstärkungsmethode für die automatische Spracherkennung

Wir stellen SpecAugment vor, eine einfache Datenverstärkungsmethode für die Spracherkennung. SpecAugment wird direkt auf die Eingabemerkmale eines neuronalen Netzes angewendet (z.B. Filterbank-Koeffizienten). Die Verstärkungsstrategie besteht aus der Verformung der Merkmale, dem Maskieren von Blöcken von Frequenzkanälen und dem Maskieren von Blöcken von Zeitpunkten. Wir wenden SpecAugment auf Listen-, Aufmerksamkeit- und Schreiben-Netze (Listen, Attend and Spell networks) an, um End-to-End-Spracherkennungsaufgaben zu bearbeiten. Wir erzielen den aktuellen Stand der Technik in den Leistungen bei den LibriSpeech 960-Stunden- und Switchboard 300-Stunden-Aufgaben, wobei wir alle bisherigen Arbeiten übertrumpfen. Bei LibriSpeech erreichen wir ohne Verwendung eines Sprachmodells einen WER von 6,8 % auf test-other und mit flacher Fusion eines Sprachmodells einen WER von 5,8 %. Dies steht im Vergleich zur bisher besten hybriden Systemleistung von 7,5 % WER. Für Switchboard erreichen wir ohne Verwendung eines Sprachmodells einen WER von 7,2 % / 14,6 % auf dem Switchboard/CallHome-Anteil des Hub5'00-Testsets und mit flacher Fusion einen WER von 6,8 % / 14,1 %. Dies steht im Vergleich zum bisher besten hybriden System mit einem WER von 8,3 % / 17,3 %.