Beyond Universal Transformer: Block-Reusing mit Adaptor im Transformer für die automatische Spracherkennung

Transformer-basierte Modelle haben in letzter Zeit erhebliche Fortschritte bei der Anwendung von end-to-end (E2E) Spracherkennung (Automatic Speech Recognition, ASR) erzielt. Dank Transformer-basierter Modelle ist es nun möglich, E2E-ASR-Systeme auf intelligenten Geräten einzusetzen. Diese Modelle weisen jedoch nach wie vor den Nachteil auf, dass sie eine große Anzahl an Modellparametern erfordern. Um den Nachteil universeller Transformer-Modelle für den Einsatz von ASR auf Edge-Geräten zu überwinden, schlagen wir eine Lösung vor, die die Wiederverwendung von Blöcken innerhalb Transformer-Modelle für kleine, platzsparende ASR-Systeme ermöglicht und gleichzeitig die Zielsetzung erfüllt, Ressourcenbeschränkungen zu berücksichtigen, ohne die Erkennungsgenauigkeit zu beeinträchtigen. Konkret entwerfen wir eine neuartige Block-Wiederverwendungsstrategie für Sprach-Transformer (Block-Reusing Strategy for Speech Transformer, BRST), um die Effizienz der Parameter zu steigern, und stellen ein Adapter-Modul (Adapter Module, ADM) vor, das ein kompaktes und anpassungsfähiges Modell mit nur wenigen zusätzlichen trainierbaren Parametern pro wiederverwendetem Block ermöglicht. Wir haben die vorgeschlagene Methode anhand des öffentlichen AISHELL-1-Korpus getestet. Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz eine Zeichenerkennungsfehlerrate (Character Error Rate, CER) von 9,3 %/6,63 % erreicht, wobei das Modell nur 7,6 Mio. / 8,3 Mio. Parameter benötigt, ohne beziehungsweise mit ADM. Zudem führen wir eine tiefgehende Analyse durch, um die Wirkung des ADM innerhalb der allgemeinen Block-Wiederverwendungsstrategie zu verdeutlichen.