Command Palette
Search for a command to run...
SpecAugment: Eine einfache Datenverstärkungsmethode für die automatische Spracherkennung
SpecAugment: Eine einfache Datenverstärkungsmethode für die automatische Spracherkennung
Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le
Zusammenfassung
Wir stellen SpecAugment vor, eine einfache Datenverstärkungsmethode für die Spracherkennung. SpecAugment wird direkt auf die Eingabemerkmale eines neuronalen Netzes angewendet (z.B. Filterbank-Koeffizienten). Die Verstärkungsstrategie besteht aus der Verformung der Merkmale, dem Maskieren von Blöcken von Frequenzkanälen und dem Maskieren von Blöcken von Zeitpunkten. Wir wenden SpecAugment auf Listen-, Aufmerksamkeit- und Schreiben-Netze (Listen, Attend and Spell networks) an, um End-to-End-Spracherkennungsaufgaben zu bearbeiten. Wir erzielen den aktuellen Stand der Technik in den Leistungen bei den LibriSpeech 960-Stunden- und Switchboard 300-Stunden-Aufgaben, wobei wir alle bisherigen Arbeiten übertrumpfen. Bei LibriSpeech erreichen wir ohne Verwendung eines Sprachmodells einen WER von 6,8 % auf test-other und mit flacher Fusion eines Sprachmodells einen WER von 5,8 %. Dies steht im Vergleich zur bisher besten hybriden Systemleistung von 7,5 % WER. Für Switchboard erreichen wir ohne Verwendung eines Sprachmodells einen WER von 7,2 % / 14,6 % auf dem Switchboard/CallHome-Anteil des Hub5'00-Testsets und mit flacher Fusion einen WER von 6,8 % / 14,1 %. Dies steht im Vergleich zum bisher besten hybriden System mit einem WER von 8,3 % / 17,3 %.