Lichtgewichtiger Transducer basierend auf einem Frame-Level-Kriterium

Das auf einem sequenzbasierten Kriterium trainierte Transduktor-Modell erfordert aufgrund der Generierung einer großen Wahrscheinlichkeitsmatrix viel Speicher. Wir schlagen ein leichtgewichtiges Transduktor-Modell basierend auf einem rahmengestützten Kriterium vor, das die Ergebnisse des CTC-forcierten Ausrichtungsalgorithmus (CTC forced alignment algorithm) verwendet, um das Label für jeden Frame zu bestimmen. Anschließend kann die Encoder-Ausgabe mit der Decoder-Ausgabe zum entsprechenden Zeitpunkt kombiniert werden, anstatt jedes Element, das der Encoder ausgibt, zu jedem Element hinzuzufügen, das der Decoder ausgibt, wie es beim Transduktor üblich ist. Dies reduziert die Speicher- und Rechenanforderungen erheblich. Um das Problem der durch übermäßige Leerzeichen im Label verursachten unbalancierten Klassifikation zu lösen, entkoppeln wir die Wahrscheinlichkeiten von Leerzeichen und Nicht-Leerzeichen und kürzen den Gradienten des Leerzeichen-Klassifizierers zum Hauptnetzwerk ab. Experimente mit AISHELL-1 zeigen, dass dies dem leichtgewichtigen Transduktor ermöglicht, ähnliche Ergebnisse wie dem Transduktor zu erzielen. Darüber hinainaus nutzen wir reichere Informationen zur Vorhersage der Leerzeichen-Wahrscheinlichkeit und erreichen damit bessere Ergebnisse als der Transduktor.