HyperAIHyperAI

Command Palette

Search for a command to run...

RWTH ASR-Systeme für LibriSpeech: Hybrid im Vergleich zu Aufmerksamkeit -- ohne Datenverstärkung

Christoph Lüscher¹, Eugen Beck¹,², Kazuki Irie¹, Markus Kitza¹, Wilfried Michel¹,², Albert Zeyer¹,², Ralf Schlüter¹, Hermann Ney¹,²

Zusammenfassung

Wir präsentieren moderne automatische Spracherkennungssysteme (ASR), die eine standardmäßige hybride DNN/HMM-Architektur verwenden, im Vergleich zu einem aufmerksamkeitsbasierten Encoder-Decoder-Design für die LibriSpeech-Aufgabe. Detaillierte Beschreibungen der Systementwicklung, einschließlich Modellgestaltung, Vortrainingsverfahren, Trainingspläne und Optimierungsansätze, werden für beide Systemarchitekturen bereitgestellt. Sowohl das hybride DNN/HMM-System als auch das aufmerksamkeitsbasierte System verwenden bidirektionale LSTMs für die akustische Modellierung/Enkodierung. Für die Sprachmodellierung setzen wir sowohl LSTM-basierte als auch Transformer-basierte Architekturen ein. Alle unsere Systeme werden mit den Open-Source-Toolkits RASR und RETURNN der RWTH Aachen entwickelt. Nach bestem Wissen der Autoren sind die erzielten Ergebnisse bei der Ausbildung am vollständigen LibriSpeech-Trainingsdatensatz aktuell die besten veröffentlichten, sowohl für das hybride DNN/HMM-System als auch für das aufmerksamkeitsbasierte System. Unser einzelnes hybrides System übertrifft sogar frühere Ergebnisse, die durch Kombination von acht Einzelsystemen erzielt wurden. Unser Vergleich zeigt, dass das hybride DNN/HMM-System bei der LibriSpeech 960-Stunden-Aufgabe den aufmerksamkeitsbasierten Ansatz um 15 % relativ in Bezug auf den Word Error Rate (WER) in den sauberen Testsets und um 40 % relativ in den anderen Testsets übertrifft. Darüber hinaus zeigen Experimente mit einem reduzierten 100-Stunden-Teil des LibriSpeech-Trainingskorpus sogar einen deutlicheren Abstand zwischen der hybriden DNN/HMM-Architektur und dem aufmerksamkeitsbasierten Design.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp