SpeechStew: Alle verfügbaren Spracherkennungsdaten einfach mischen, um ein einziges großes neuronales Netzwerk zu trainieren

Wir stellen SpeechStew vor, ein Spracherkennungsmodell, das auf einer Kombination verschiedener öffentlich verfügbaren Spracherkennungsdatensätze trainiert wurde: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium und Wall Street Journal. SpeechStew mischt einfach alle diese Datensätze zusammen, ohne spezielle Gewichtung oder Ausgleich der Datensätze vorzunehmen. SpeechStew erreicht state-of-the-art (SoTA) oder nahezu state-of-the-art Ergebnisse auf einer Vielzahl von Aufgaben, ohne die Verwendung eines externen Sprachmodells. Unsere Ergebnisse umfassen einen WER von 9,0 % auf AMI-IHM, 4,7 % auf Switchboard, 8,3 % auf CallHome und 1,3 % auf WSJ – wobei diese Ergebnisse deutlich über der Leistung vorheriger Ansätze mit starken externen Sprachmodellen liegen. Außerdem zeigen wir, dass SpeechStew leistungsfähige Transfer-Lern-Vertretungen erlernt. Wir fine-tunen SpeechStew auf einem rauschbehafteten, datenarmen Sprachdatensatz, CHiME-6. Wir erreichen dabei einen WER von 38,9 % ohne Sprachmodell, was gegenüber einem starken HMM-Baseline mit Sprachmodell (38,6 % WER) konkurrenzfähig ist.