RWTH ASR-Systeme für LibriSpeech: Hybrid im Vergleich zu Aufmerksamkeit -- ohne Datenverstärkung

Wir präsentieren moderne automatische Spracherkennungssysteme (ASR), die eine standardmäßige hybride DNN/HMM-Architektur verwenden, im Vergleich zu einem aufmerksamkeitsbasierten Encoder-Decoder-Design für die LibriSpeech-Aufgabe. Detaillierte Beschreibungen der Systementwicklung, einschließlich Modellgestaltung, Vortrainingsverfahren, Trainingspläne und Optimierungsansätze, werden für beide Systemarchitekturen bereitgestellt. Sowohl das hybride DNN/HMM-System als auch das aufmerksamkeitsbasierte System verwenden bidirektionale LSTMs für die akustische Modellierung/Enkodierung. Für die Sprachmodellierung setzen wir sowohl LSTM-basierte als auch Transformer-basierte Architekturen ein. Alle unsere Systeme werden mit den Open-Source-Toolkits RASR und RETURNN der RWTH Aachen entwickelt. Nach bestem Wissen der Autoren sind die erzielten Ergebnisse bei der Ausbildung am vollständigen LibriSpeech-Trainingsdatensatz aktuell die besten veröffentlichten, sowohl für das hybride DNN/HMM-System als auch für das aufmerksamkeitsbasierte System. Unser einzelnes hybrides System übertrifft sogar frühere Ergebnisse, die durch Kombination von acht Einzelsystemen erzielt wurden. Unser Vergleich zeigt, dass das hybride DNN/HMM-System bei der LibriSpeech 960-Stunden-Aufgabe den aufmerksamkeitsbasierten Ansatz um 15 % relativ in Bezug auf den Word Error Rate (WER) in den sauberen Testsets und um 40 % relativ in den anderen Testsets übertrifft. Darüber hinaus zeigen Experimente mit einem reduzierten 100-Stunden-Teil des LibriSpeech-Trainingskorpus sogar einen deutlicheren Abstand zwischen der hybriden DNN/HMM-Architektur und dem aufmerksamkeitsbasierten Design.