Transformer-basierte ASR mit Zeitreduzierungsschicht und Feinabstimmung mittels Selbst-Wissens-Distillation

End-to-end automatische Spracherkennung (ASR) unterscheidet sich von herkömmlichen ASR-Systemen dadurch, dass sie keine separaten Module zur Lernung semantischer Repräsentationen aus der Sprachencoder-Ausgabe besitzt. Zudem erschwert die höhere Frame-Rate der Sprachrepräsentation eine effektive Lernung semantischer Informationen. Daher führen Modelle, die auf einer niedrigeren Frame-Rate des Sprachencoders basieren, zu einer besseren Leistung. Für Transformer-basierte ASR-Modelle ist eine niedrigere Frame-Rate nicht nur entscheidend für die Verbesserung der semantischen Repräsentation, sondern auch zur Reduzierung der Rechenkomplexität, da der Self-Attention-Mechanismus eine Komplexität von O(n²) sowohl während des Trainings als auch bei der Inferenz aufweist. In diesem Paper stellen wir ein Transformer-basiertes ASR-Modell mit einer Zeitreduktions-Schicht vor, bei dem wir zusätzlich zu herkömmlichen Sub-Sampling-Methoden zur Eingabedatenverarbeitung eine Zeitreduktions-Schicht innerhalb der Transformer-Encoder-Schichten integrieren, um die Frame-Rate weiter zu verringern. Dies ermöglicht eine signifikante Reduktion der Rechenkosten des Self-Attention-Prozesses sowohl beim Training als auch bei der Inferenz, gleichzeitig mit einer Leistungssteigerung. Darüber hinaus führen wir einen Feinabstimmungsansatz für vortrainierte ASR-Modelle mittels Selbstwissens-Distillation (S-KD) ein, der die Leistung unseres ASR-Modells zusätzlich verbessert. Experimente auf den LibriSpeech-Datensätzen zeigen, dass unsere vorgeschlagenen Methoden alle anderen Transformer-basierten ASR-Systeme übertrumpfen. Zudem erreichen wir mit der Fusion eines Sprachmodells (LM) neue SOTA-Werte (State-of-the-Art) für den Wortfehlerquote (WER) bei Transformer-basierten ASR-Modellen – und zwar mit nur 30 Millionen Parametern, die ohne jegliche externe Daten trainiert wurden.