HyperAIHyperAI

Command Palette

Search for a command to run...

Einmuster-Aggregation für CTC-basierte Spracherkennung

Ying Fang Xiaofei Li

Zusammenfassung

Diese Arbeit befasst sich mit der nicht-autoregressiven automatischen Spracherkennung. Es wird ein einmodaler Aggregationsansatz (Unimodal Aggregation, UMA) vorgeschlagen, um die Merkmalsframes, die demselben Texttoken zugeordnet sind, zu segmentieren und zu integrieren, um somit verbesserte Merkmalsrepräsentationen für Texttokens zu lernen. Sowohl die frame-weisen Merkmale als auch die Gewichte werden aus einem Encoder abgeleitet. Anschließend werden die Merkmalsframes mit einmodalen Gewichten integriert und weiterhin durch einen Decoder verarbeitet. Zur Trainingsphase wird die Connectionistische zeitliche Klassifikation (Connectionist Temporal Classification, CTC) verwendet. Im Vergleich zur herkömmlichen CTC lernt der vorgeschlagene Ansatz verbesserte Merkmalsrepräsentationen und verkürzt die Sequenzlänge, was zu einer geringeren Erkennungsfehlerquote und reduzierter Rechenkomplexität führt. Experimente an drei Mandarindatenbanken zeigen, dass UMA eine überlegene oder vergleichbare Leistung im Vergleich zu anderen fortschrittlichen nicht-autoregressiven Methoden, wie beispielsweise selbstbedingter CTC, erzielt. Darüber hinaus kann die Leistung durch die Integration von selbstbedingter CTC in den vorgeschlagenen Rahmen noch deutlich verbessert werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp