HyperAIHyperAI

Command Palette

Search for a command to run...

SpeechStew: Alle verfügbaren Spracherkennungsdaten einfach mischen, um ein einziges großes neuronales Netzwerk zu trainieren

William Chan Daniel Park Chris Lee Yu Zhang Quoc Le Mohammad Norouzi

Zusammenfassung

Wir stellen SpeechStew vor, ein Spracherkennungsmodell, das auf einer Kombination verschiedener öffentlich verfügbaren Spracherkennungsdatensätze trainiert wurde: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium und Wall Street Journal. SpeechStew mischt einfach alle diese Datensätze zusammen, ohne spezielle Gewichtung oder Ausgleich der Datensätze vorzunehmen. SpeechStew erreicht state-of-the-art (SoTA) oder nahezu state-of-the-art Ergebnisse auf einer Vielzahl von Aufgaben, ohne die Verwendung eines externen Sprachmodells. Unsere Ergebnisse umfassen einen WER von 9,0 % auf AMI-IHM, 4,7 % auf Switchboard, 8,3 % auf CallHome und 1,3 % auf WSJ – wobei diese Ergebnisse deutlich über der Leistung vorheriger Ansätze mit starken externen Sprachmodellen liegen. Außerdem zeigen wir, dass SpeechStew leistungsfähige Transfer-Lern-Vertretungen erlernt. Wir fine-tunen SpeechStew auf einem rauschbehafteten, datenarmen Sprachdatensatz, CHiME-6. Wir erreichen dabei einen WER von 38,9 % ohne Sprachmodell, was gegenüber einem starken HMM-Baseline mit Sprachmodell (38,6 % WER) konkurrenzfähig ist.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp