vor 2 Monaten

Lichtgesteuerte Rekurrente Einheiten für Spracherkennung

Mirco Ravanelli; Philemon Brakel; Maurizio Omologo; Yoshua Bengio

Abstract

Ein Bereich, der direkt von den jüngsten Fortschritten im Bereich des Deep Learning profitiert, ist die automatische Spracherkennung (ASR). Trotz der großen Erfolge der vergangenen Jahrzehnte erscheint jedoch eine natürliche und robuste sprachliche Mensch-Maschine-Interaktion immer noch außer Reichweite, insbesondere in herausfordernden Umgebungen, die durch erheblichen Lärm und Hall gekennzeichnet sind. Um die Robustheit zu verbessern, verwenden moderne Spracherkennungssysteme häufig akustische Modelle auf Basis von rekurrenten neuronalen Netzen (RNNs), die in der Lage sind, große zeitliche Kontexte und langfristige Sprachmodulationen effektiv zu nutzen. Es ist daher von großem Interesse, die Entwicklung geeigneter Techniken zur Steigerung der Effektivität von RNNs bei der Verarbeitung von Sprachsignalen fortzusetzen.In dieser Arbeit überarbeiten wir eines der beliebtesten RNN-Modelle, nämlich Gated Recurrent Units (GRUs), und schlagen eine vereinfachte Architektur vor, die sich als sehr effektiv für ASR erwiesen hat. Der Beitrag dieser Arbeit besteht aus zwei Aspekten: Erstens analysieren wir die Rolle des Reset-Gates und zeigen, dass eine erhebliche Redundanz mit dem Update-Gate auftritt. Als Ergebnis schlagen wir vor, den Reset-Gate aus dem GRU-Design zu entfernen, was zu einem effizienteren und kompakteren Ein-Gate-Modell führt. Zweitens schlagen wir vor, Hyperbolische Tangensaktivierungen durch ReLU-Aktivierungen zu ersetzen. Diese Variation ergänzt sich gut mit Batch-Normalisierung und könnte helfen, das Modell langfristige Abhängigkeiten ohne numerische Probleme zu lernen.Die Ergebnisse zeigen, dass die vorgeschlagene Architektur, genannt Light GRU (Li-GRU), nicht nur die Trainingszeit pro Epoche um mehr als 30 % gegenüber einem Standard-GRU reduziert, sondern auch konsistent die Erkennungsrate in verschiedenen Aufgaben verbessert. Dies betrifft sowohl unterschiedliche Eingabe-Features als auch rauschige Bedingungen sowie verschiedene ASR-Paradigmen – vom Standard-DNN-HMM-Spracherkennungsverfahren bis hin zu end-to-end CTC-Modellen.