Command Palette
Search for a command to run...
SpeechStew: Alle verfügbaren Spracherkennungsdaten einfach mischen, um ein einziges großes neuronales Netzwerk zu trainieren
SpeechStew: Alle verfügbaren Spracherkennungsdaten einfach mischen, um ein einziges großes neuronales Netzwerk zu trainieren
William Chan Daniel Park Chris Lee Yu Zhang Quoc Le Mohammad Norouzi
Zusammenfassung
Wir stellen SpeechStew vor, ein Spracherkennungsmodell, das auf einer Kombination verschiedener öffentlich verfügbaren Spracherkennungsdatensätze trainiert wurde: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium und Wall Street Journal. SpeechStew mischt einfach alle diese Datensätze zusammen, ohne spezielle Gewichtung oder Ausgleich der Datensätze vorzunehmen. SpeechStew erreicht state-of-the-art (SoTA) oder nahezu state-of-the-art Ergebnisse auf einer Vielzahl von Aufgaben, ohne die Verwendung eines externen Sprachmodells. Unsere Ergebnisse umfassen einen WER von 9,0 % auf AMI-IHM, 4,7 % auf Switchboard, 8,3 % auf CallHome und 1,3 % auf WSJ – wobei diese Ergebnisse deutlich über der Leistung vorheriger Ansätze mit starken externen Sprachmodellen liegen. Außerdem zeigen wir, dass SpeechStew leistungsfähige Transfer-Lern-Vertretungen erlernt. Wir fine-tunen SpeechStew auf einem rauschbehafteten, datenarmen Sprachdatensatz, CHiME-6. Wir erreichen dabei einen WER von 38,9 % ohne Sprachmodell, was gegenüber einem starken HMM-Baseline mit Sprachmodell (38,6 % WER) konkurrenzfähig ist.