HyperAIHyperAI

Command Palette

Search for a command to run...

Lichtgewichtiger Transducer basierend auf einem Frame-Level-Kriterium

Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen* Zhongfu Ye

Zusammenfassung

Das auf einem sequenzbasierten Kriterium trainierte Transduktor-Modell erfordert aufgrund der Generierung einer großen Wahrscheinlichkeitsmatrix viel Speicher. Wir schlagen ein leichtgewichtiges Transduktor-Modell basierend auf einem rahmengestützten Kriterium vor, das die Ergebnisse des CTC-forcierten Ausrichtungsalgorithmus (CTC forced alignment algorithm) verwendet, um das Label für jeden Frame zu bestimmen. Anschließend kann die Encoder-Ausgabe mit der Decoder-Ausgabe zum entsprechenden Zeitpunkt kombiniert werden, anstatt jedes Element, das der Encoder ausgibt, zu jedem Element hinzuzufügen, das der Decoder ausgibt, wie es beim Transduktor üblich ist. Dies reduziert die Speicher- und Rechenanforderungen erheblich. Um das Problem der durch übermäßige Leerzeichen im Label verursachten unbalancierten Klassifikation zu lösen, entkoppeln wir die Wahrscheinlichkeiten von Leerzeichen und Nicht-Leerzeichen und kürzen den Gradienten des Leerzeichen-Klassifizierers zum Hauptnetzwerk ab. Experimente mit AISHELL-1 zeigen, dass dies dem leichtgewichtigen Transduktor ermöglicht, ähnliche Ergebnisse wie dem Transduktor zu erzielen. Darüber hinainaus nutzen wir reichere Informationen zur Vorhersage der Leerzeichen-Wahrscheinlichkeit und erreichen damit bessere Ergebnisse als der Transduktor.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp