Einmuster-Aggregation für CTC-basierte Spracherkennung

Diese Arbeit befasst sich mit der nicht-autoregressiven automatischen Spracherkennung. Es wird ein einmodaler Aggregationsansatz (Unimodal Aggregation, UMA) vorgeschlagen, um die Merkmalsframes, die demselben Texttoken zugeordnet sind, zu segmentieren und zu integrieren, um somit verbesserte Merkmalsrepräsentationen für Texttokens zu lernen. Sowohl die frame-weisen Merkmale als auch die Gewichte werden aus einem Encoder abgeleitet. Anschließend werden die Merkmalsframes mit einmodalen Gewichten integriert und weiterhin durch einen Decoder verarbeitet. Zur Trainingsphase wird die Connectionistische zeitliche Klassifikation (Connectionist Temporal Classification, CTC) verwendet. Im Vergleich zur herkömmlichen CTC lernt der vorgeschlagene Ansatz verbesserte Merkmalsrepräsentationen und verkürzt die Sequenzlänge, was zu einer geringeren Erkennungsfehlerquote und reduzierter Rechenkomplexität führt. Experimente an drei Mandarindatenbanken zeigen, dass UMA eine überlegene oder vergleichbare Leistung im Vergleich zu anderen fortschrittlichen nicht-autoregressiven Methoden, wie beispielsweise selbstbedingter CTC, erzielt. Darüber hinaus kann die Leistung durch die Integration von selbstbedingter CTC in den vorgeschlagenen Rahmen noch deutlich verbessert werden.