3M: Multi-loss, Multi-path und Multi-level Neuronale Netze für die Spracherkennung

Kürzlich ist der auf Conformer basierende CTC/AED-Modellansatz zu einer etablierten Architektur für Spracherkennung (ASR) geworden. In dieser Arbeit bauen wir auf unseren vorherigen Arbeiten auf und identifizieren sowie integrieren mehrere Ansätze, um die Leistung von ASR-Aufgaben weiter zu verbessern. Diese Ansätze bezeichnen wir als „3M“-Modell, abgeleitet aus den Begriffen Multi-Loss, Multi-Path und Multi-Level. Konkret bezeichnet Multi-Loss die gemeinsame Verwendung der CTC- und AED-Verlustfunktion, während Multi-Path die Mixture-of-Experts-(MoE)-Architektur beschreibt, die die Modellkapazität effizient erhöht, ohne die Berechnungskosten signifikant ansteigen zu lassen. Multi-Level bedeutet, dass wir zusätzliche Hilfsverluste auf mehreren Ebenen eines tiefen Modells einführen, um den Trainingsprozess zu unterstützen. Wir evaluieren unsere vorgeschlagene Methode am öffentlichen WenetSpeech-Datensatz. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Verfahren gegenüber dem Basismodell, das mit dem Wenet-Toolkit trainiert wurde, eine relative Verbesserung des CER (Character Error Rate) um 12,2 % bis 17,6 % erzielt. Auf unserem großskaligen Datensatz mit einer Korpusgröße von 150.000 Stunden zeigt das 3M-Modell ebenfalls eine deutliche Überlegenheit gegenüber dem Basismodell auf Basis des Conformer-Ansatzes. Der Quellcode ist öffentlich verfügbar unter https://github.com/tencent-ailab/3m-asr.