HyperAIHyperAI

Command Palette

Search for a command to run...

Squeezeformer: Ein effizienter Transformer für die automatische Spracherkennung

Sehoon Kim Amir Gholami Albert Shaw Nicholas Lee Karttikeya Mangalam Jitendra Malik Michael W. Mahoney Kurt Keutzer

Zusammenfassung

Der kürzlich vorgeschlagene Conformer-Modell ist aufgrund seiner hybriden Aufmerksamkeits- und Faltungsarchitektur, die sowohl lokale als auch globale Merkmale erfassen kann, zum de-facto-Grundbaustein verschiedener nachgeschalteter Sprachaufgaben geworden. Durch eine Reihe systematischer Studien stellen wir jedoch fest, dass die Entwurfsentscheidungen der Conformer-Architektur nicht optimal sind. Nach einer erneuten Analyse der makro- und mikroarchitektonischen Entscheidungen im Conformer schlagen wir Squeezeformer vor, das unter denselben Trainingsbedingungen konsistent die derzeit besten ASR-Modelle übertrifft. Insbesondere im Hinblick auf die Makroarchitektur integriert Squeezeformer (i) die Temporal-U-Net-Struktur, die die Kosten der Multi-Head-Aufmerksamkeitsmodule bei langen Sequenzen reduziert, sowie (ii) eine vereinfachte Blockstruktur aus Multi-Head-Aufmerksamkeits- oder Faltungsmodulen, gefolgt von einem Feed-Forward-Modul, anstelle der im Conformer vorgeschlagenen Macaron-Struktur. Darüber hinaus vereinfacht Squeezeformer im Mikroarchitektur-Aspekt (i) die Aktivierungsfunktionen im Faltungsblock, (ii) entfernt überflüssige Layer-Normalisierungsoperationen und (iii) integriert eine effiziente depthwise-Downsampling-Schicht zur effizienten Unterabtastung des Eingabesignals. Squeezeformer erreicht Zustand-der-Kunst-Ergebnisse von 7,5 %, 6,5 % und 6,0 % Word-Error-Rate (WER) auf dem LibriSpeech test-other ohne externe Sprachmodelle – das entspricht einer Verbesserung um 3,1 %, 1,4 % und 0,6 % gegenüber Conformer-CTC bei identischer Anzahl an FLOPs. Unser Code ist öffentlich zugänglich und online verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp