vor 8 Monaten

Zusammenfassung

Das auf einem sequenzbasierten Kriterium trainierte Transduktor-Modell erfordert aufgrund der Generierung einer großen Wahrscheinlichkeitsmatrix viel Speicher. Wir schlagen ein leichtgewichtiges Transduktor-Modell basierend auf einem rahmengestützten Kriterium vor, das die Ergebnisse des CTC-forcierten Ausrichtungsalgorithmus (CTC forced alignment algorithm) verwendet, um das Label für jeden Frame zu bestimmen. Anschließend kann die Encoder-Ausgabe mit der Decoder-Ausgabe zum entsprechenden Zeitpunkt kombiniert werden, anstatt jedes Element, das der Encoder ausgibt, zu jedem Element hinzuzufügen, das der Decoder ausgibt, wie es beim Transduktor üblich ist. Dies reduziert die Speicher- und Rechenanforderungen erheblich. Um das Problem der durch übermäßige Leerzeichen im Label verursachten unbalancierten Klassifikation zu lösen, entkoppeln wir die Wahrscheinlichkeiten von Leerzeichen und Nicht-Leerzeichen und kürzen den Gradienten des Leerzeichen-Klassifizierers zum Hauptnetzwerk ab. Experimente mit AISHELL-1 zeigen, dass dies dem leichtgewichtigen Transduktor ermöglicht, ähnliche Ergebnisse wie dem Transduktor zu erzielen. Darüber hinainaus nutzen wir reichere Informationen zur Vorhersage der Leerzeichen-Wahrscheinlichkeit und erreichen damit bessere Ergebnisse als der Transduktor.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Audio- Und Sprachverarbeitung

Transformer

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Audio

Aufgabe

Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen* Zhongfu Ye

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Audio- Und Sprachverarbeitung

Transformer

Natürliche Sprachverarbeitung

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Audio

Aufgabe

Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen* Zhongfu Ye

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Lichtgewichtiger Transducer basierend auf einem Frame-Level-Kriterium | Paper | HyperAI

Command Palette

Lichtgewichtiger Transducer basierend auf einem Frame-Level-Kriterium

Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen* Zhongfu Ye

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lichtgewichtiger Transducer basierend auf einem Frame-Level-Kriterium

Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen* Zhongfu Ye

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lichtgewichtiger Transducer basierend auf einem Frame-Level-Kriterium

Genshun Wan Mengzhi Wang Tingzhi Mao Hang Chen* Zhongfu Ye

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters