HyperAIHyperAI

Command Palette

Search for a command to run...

SpecAugment: Eine einfache Datenverstärkungsmethode für die automatische Spracherkennung

Daniel S. Park* William Chan Yu Zhang Chung-Cheng Chiu Barret Zoph Ekin D. Cubuk Quoc V. Le

Zusammenfassung

Wir stellen SpecAugment vor, eine einfache Datenverstärkungsmethode für die Spracherkennung. SpecAugment wird direkt auf die Eingabemerkmale eines neuronalen Netzes angewendet (z.B. Filterbank-Koeffizienten). Die Verstärkungsstrategie besteht aus der Verformung der Merkmale, dem Maskieren von Blöcken von Frequenzkanälen und dem Maskieren von Blöcken von Zeitpunkten. Wir wenden SpecAugment auf Listen-, Aufmerksamkeit- und Schreiben-Netze (Listen, Attend and Spell networks) an, um End-to-End-Spracherkennungsaufgaben zu bearbeiten. Wir erzielen den aktuellen Stand der Technik in den Leistungen bei den LibriSpeech 960-Stunden- und Switchboard 300-Stunden-Aufgaben, wobei wir alle bisherigen Arbeiten übertrumpfen. Bei LibriSpeech erreichen wir ohne Verwendung eines Sprachmodells einen WER von 6,8 % auf test-other und mit flacher Fusion eines Sprachmodells einen WER von 5,8 %. Dies steht im Vergleich zur bisher besten hybriden Systemleistung von 7,5 % WER. Für Switchboard erreichen wir ohne Verwendung eines Sprachmodells einen WER von 7,2 % / 14,6 % auf dem Switchboard/CallHome-Anteil des Hub5'00-Testsets und mit flacher Fusion einen WER von 6,8 % / 14,1 %. Dies steht im Vergleich zum bisher besten hybriden System mit einem WER von 8,3 % / 17,3 %.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp