Zipformer: Ein schnellerer und besserer Encoder für die automatische Spracherkennung

Der Conformer ist zum am häufigsten verwendeten Encoder-Modell für die automatische Spracherkennung (ASR) geworden. Er integriert Konvolutionsschichten in einen Transformer, um sowohl lokale als auch globale Abhängigkeiten zu lernen. In dieser Arbeit stellen wir einen schnelleren, speichereffizienteren und leistungsfähigeren Transformer vor, den wir Zipformer nennen. Zu den Modellverbesserungen zählen: 1) eine U-Net-ähnliche Encoder-Architektur, bei der die mittleren Schichten mit einer niedrigeren Frame-Rate arbeiten; 2) eine neu strukturierte Blockarchitektur mit mehr Modulen, bei der Aufmerksamkeitsgewichte zur Effizienzsteigerung wiederverwendet werden; 3) eine abgewandelte Form der LayerNorm, namens BiasNorm, die es ermöglicht, gewisse Längeninformationen beizubehalten; 4) neue Aktivierungsfunktionen, SwooshR und SwooshL, die besser abschneiden als Swish. Außerdem schlagen wir einen neuen Optimierer vor, genannt ScaledAdam, der die Aktualisierung jedes Tensors an dessen aktueller Skala anpasst, um die relative Änderung konstant zu halten, und explizit die Skala der Parameter lernt. ScaledAdam erreicht eine schnellere Konvergenz und bessere Leistung als Adam. Umfangreiche Experimente auf den Datensätzen LibriSpeech, Aishell-1 und WenetSpeech belegen die Überlegenheit unseres vorgeschlagenen Zipformer gegenüber anderen state-of-the-art-ASR-Modellen. Der Quellcode ist öffentlich verfügbar unter https://github.com/k2-fsa/icefall.