HyperAIHyperAI

Command Palette

Search for a command to run...

3M: Multi-loss, Multi-path und Multi-level Neuronale Netze für die Spracherkennung

Zhao You Shulin Feng Dan Su Dong Yu

Zusammenfassung

Kürzlich ist der auf Conformer basierende CTC/AED-Modellansatz zu einer etablierten Architektur für Spracherkennung (ASR) geworden. In dieser Arbeit bauen wir auf unseren vorherigen Arbeiten auf und identifizieren sowie integrieren mehrere Ansätze, um die Leistung von ASR-Aufgaben weiter zu verbessern. Diese Ansätze bezeichnen wir als „3M“-Modell, abgeleitet aus den Begriffen Multi-Loss, Multi-Path und Multi-Level. Konkret bezeichnet Multi-Loss die gemeinsame Verwendung der CTC- und AED-Verlustfunktion, während Multi-Path die Mixture-of-Experts-(MoE)-Architektur beschreibt, die die Modellkapazität effizient erhöht, ohne die Berechnungskosten signifikant ansteigen zu lassen. Multi-Level bedeutet, dass wir zusätzliche Hilfsverluste auf mehreren Ebenen eines tiefen Modells einführen, um den Trainingsprozess zu unterstützen. Wir evaluieren unsere vorgeschlagene Methode am öffentlichen WenetSpeech-Datensatz. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Verfahren gegenüber dem Basismodell, das mit dem Wenet-Toolkit trainiert wurde, eine relative Verbesserung des CER (Character Error Rate) um 12,2 % bis 17,6 % erzielt. Auf unserem großskaligen Datensatz mit einer Korpusgröße von 150.000 Stunden zeigt das 3M-Modell ebenfalls eine deutliche Überlegenheit gegenüber dem Basismodell auf Basis des Conformer-Ansatzes. Der Quellcode ist öffentlich verfügbar unter https://github.com/tencent-ailab/3m-asr.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp