Squeezeformer: Ein effizienter Transformer für die automatische Spracherkennung

Der kürzlich vorgeschlagene Conformer-Modell ist aufgrund seiner hybriden Aufmerksamkeits- und Faltungsarchitektur, die sowohl lokale als auch globale Merkmale erfassen kann, zum de-facto-Grundbaustein verschiedener nachgeschalteter Sprachaufgaben geworden. Durch eine Reihe systematischer Studien stellen wir jedoch fest, dass die Entwurfsentscheidungen der Conformer-Architektur nicht optimal sind. Nach einer erneuten Analyse der makro- und mikroarchitektonischen Entscheidungen im Conformer schlagen wir Squeezeformer vor, das unter denselben Trainingsbedingungen konsistent die derzeit besten ASR-Modelle übertrifft. Insbesondere im Hinblick auf die Makroarchitektur integriert Squeezeformer (i) die Temporal-U-Net-Struktur, die die Kosten der Multi-Head-Aufmerksamkeitsmodule bei langen Sequenzen reduziert, sowie (ii) eine vereinfachte Blockstruktur aus Multi-Head-Aufmerksamkeits- oder Faltungsmodulen, gefolgt von einem Feed-Forward-Modul, anstelle der im Conformer vorgeschlagenen Macaron-Struktur. Darüber hinaus vereinfacht Squeezeformer im Mikroarchitektur-Aspekt (i) die Aktivierungsfunktionen im Faltungsblock, (ii) entfernt überflüssige Layer-Normalisierungsoperationen und (iii) integriert eine effiziente depthwise-Downsampling-Schicht zur effizienten Unterabtastung des Eingabesignals. Squeezeformer erreicht Zustand-der-Kunst-Ergebnisse von 7,5 %, 6,5 % und 6,0 % Word-Error-Rate (WER) auf dem LibriSpeech test-other ohne externe Sprachmodelle – das entspricht einer Verbesserung um 3,1 %, 1,4 % und 0,6 % gegenüber Conformer-CTC bei identischer Anzahl an FLOPs. Unser Code ist öffentlich zugänglich und online verfügbar.