HyperAIHyperAI

Command Palette

Search for a command to run...

Beyond Universal Transformer: Block-Reusing mit Adaptor im Transformer für die automatische Spracherkennung

Haoyu Tang Zhaoyi Liu Chang Zeng Xinfeng Li

Zusammenfassung

Transformer-basierte Modelle haben in letzter Zeit erhebliche Fortschritte bei der Anwendung von end-to-end (E2E) Spracherkennung (Automatic Speech Recognition, ASR) erzielt. Dank Transformer-basierter Modelle ist es nun möglich, E2E-ASR-Systeme auf intelligenten Geräten einzusetzen. Diese Modelle weisen jedoch nach wie vor den Nachteil auf, dass sie eine große Anzahl an Modellparametern erfordern. Um den Nachteil universeller Transformer-Modelle für den Einsatz von ASR auf Edge-Geräten zu überwinden, schlagen wir eine Lösung vor, die die Wiederverwendung von Blöcken innerhalb Transformer-Modelle für kleine, platzsparende ASR-Systeme ermöglicht und gleichzeitig die Zielsetzung erfüllt, Ressourcenbeschränkungen zu berücksichtigen, ohne die Erkennungsgenauigkeit zu beeinträchtigen. Konkret entwerfen wir eine neuartige Block-Wiederverwendungsstrategie für Sprach-Transformer (Block-Reusing Strategy for Speech Transformer, BRST), um die Effizienz der Parameter zu steigern, und stellen ein Adapter-Modul (Adapter Module, ADM) vor, das ein kompaktes und anpassungsfähiges Modell mit nur wenigen zusätzlichen trainierbaren Parametern pro wiederverwendetem Block ermöglicht. Wir haben die vorgeschlagene Methode anhand des öffentlichen AISHELL-1-Korpus getestet. Die Ergebnisse zeigen, dass der vorgeschlagene Ansatz eine Zeichenerkennungsfehlerrate (Character Error Rate, CER) von 9,3 %/6,63 % erreicht, wobei das Modell nur 7,6 Mio. / 8,3 Mio. Parameter benötigt, ohne beziehungsweise mit ADM. Zudem führen wir eine tiefgehende Analyse durch, um die Wirkung des ADM innerhalb der allgemeinen Block-Wiederverwendungsstrategie zu verdeutlichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp