HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer-basierte ASR mit Zeitreduzierungsschicht und Feinabstimmung mittels Selbst-Wissens-Distillation

Md Akmal Haidar Chao Xing Mehdi Rezagholizadeh

Zusammenfassung

End-to-end automatische Spracherkennung (ASR) unterscheidet sich von herkömmlichen ASR-Systemen dadurch, dass sie keine separaten Module zur Lernung semantischer Repräsentationen aus der Sprachencoder-Ausgabe besitzt. Zudem erschwert die höhere Frame-Rate der Sprachrepräsentation eine effektive Lernung semantischer Informationen. Daher führen Modelle, die auf einer niedrigeren Frame-Rate des Sprachencoders basieren, zu einer besseren Leistung. Für Transformer-basierte ASR-Modelle ist eine niedrigere Frame-Rate nicht nur entscheidend für die Verbesserung der semantischen Repräsentation, sondern auch zur Reduzierung der Rechenkomplexität, da der Self-Attention-Mechanismus eine Komplexität von O(n²) sowohl während des Trainings als auch bei der Inferenz aufweist. In diesem Paper stellen wir ein Transformer-basiertes ASR-Modell mit einer Zeitreduktions-Schicht vor, bei dem wir zusätzlich zu herkömmlichen Sub-Sampling-Methoden zur Eingabedatenverarbeitung eine Zeitreduktions-Schicht innerhalb der Transformer-Encoder-Schichten integrieren, um die Frame-Rate weiter zu verringern. Dies ermöglicht eine signifikante Reduktion der Rechenkosten des Self-Attention-Prozesses sowohl beim Training als auch bei der Inferenz, gleichzeitig mit einer Leistungssteigerung. Darüber hinaus führen wir einen Feinabstimmungsansatz für vortrainierte ASR-Modelle mittels Selbstwissens-Distillation (S-KD) ein, der die Leistung unseres ASR-Modells zusätzlich verbessert. Experimente auf den LibriSpeech-Datensätzen zeigen, dass unsere vorgeschlagenen Methoden alle anderen Transformer-basierten ASR-Systeme übertrumpfen. Zudem erreichen wir mit der Fusion eines Sprachmodells (LM) neue SOTA-Werte (State-of-the-Art) für den Wortfehlerquote (WER) bei Transformer-basierten ASR-Modellen – und zwar mit nur 30 Millionen Parametern, die ohne jegliche externe Daten trainiert wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Transformer-basierte ASR mit Zeitreduzierungsschicht und Feinabstimmung mittels Selbst-Wissens-Distillation | Paper | HyperAI