HyperAIHyperAI

Command Palette

Search for a command to run...

Lichtgesteuerte Rekurrente Einheiten für Spracherkennung

Luca Calvi Stefano Fasciolo Marco Zancanaro

Zusammenfassung

Ein Bereich, der direkt von den jüngsten Fortschritten im Bereich des Deep Learning profitiert, ist die automatische Spracherkennung (ASR). Trotz der großen Erfolge der vergangenen Jahrzehnte erscheint jedoch eine natürliche und robuste sprachliche Mensch-Maschine-Interaktion immer noch außer Reichweite, insbesondere in herausfordernden Umgebungen, die durch erheblichen Lärm und Hall gekennzeichnet sind. Um die Robustheit zu verbessern, verwenden moderne Spracherkennungssysteme häufig akustische Modelle auf Basis von rekurrenten neuronalen Netzen (RNNs), die in der Lage sind, große zeitliche Kontexte und langfristige Sprachmodulationen effektiv zu nutzen. Es ist daher von großem Interesse, die Entwicklung geeigneter Techniken zur Steigerung der Effektivität von RNNs bei der Verarbeitung von Sprachsignalen fortzusetzen.In dieser Arbeit überarbeiten wir eines der beliebtesten RNN-Modelle, nämlich Gated Recurrent Units (GRUs), und schlagen eine vereinfachte Architektur vor, die sich als sehr effektiv für ASR erwiesen hat. Der Beitrag dieser Arbeit besteht aus zwei Aspekten: Erstens analysieren wir die Rolle des Reset-Gates und zeigen, dass eine erhebliche Redundanz mit dem Update-Gate auftritt. Als Ergebnis schlagen wir vor, den Reset-Gate aus dem GRU-Design zu entfernen, was zu einem effizienteren und kompakteren Ein-Gate-Modell führt. Zweitens schlagen wir vor, Hyperbolische Tangensaktivierungen durch ReLU-Aktivierungen zu ersetzen. Diese Variation ergänzt sich gut mit Batch-Normalisierung und könnte helfen, das Modell langfristige Abhängigkeiten ohne numerische Probleme zu lernen.Die Ergebnisse zeigen, dass die vorgeschlagene Architektur, genannt Light GRU (Li-GRU), nicht nur die Trainingszeit pro Epoche um mehr als 30 % gegenüber einem Standard-GRU reduziert, sondern auch konsistent die Erkennungsrate in verschiedenen Aufgaben verbessert. Dies betrifft sowohl unterschiedliche Eingabe-Features als auch rauschige Bedingungen sowie verschiedene ASR-Paradigmen – vom Standard-DNN-HMM-Spracherkennungsverfahren bis hin zu end-to-end CTC-Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp