Schneller Conformer mit linear skalierbarer Aufmerksamkeit für effiziente Spracherkennung

Conformer-basierte Modelle sind zur dominierenden End-to-End-Architektur für Sprachverarbeitungsaufgaben geworden. Um die Conformer-Architektur für eine effiziente Trainings- und Inferenzphase zu verbessern, haben wir sie mit einem neuartigen Downsampling-Schema sorgfältig neu gestaltet. Das vorgeschlagene Modell, Fast Conformer (FC), ist 2,8-mal schneller als die ursprüngliche Conformer-Architektur, skaliert problemlos auf Billionen Parameter, ohne die Kernarchitektur zu verändern, und erreicht zudem den Stand der Technik bei der Genauigkeit auf Benchmark-Datenmengen für die automatische Spracherkennung (Automatic Speech Recognition). Um die Transkription von langen Sprachaufnahmen bis hin zu 11 Stunden zu ermöglichen, haben wir nach dem Training die globale Aufmerksamkeit durch eine begrenzte Kontext-Aufmerksamkeit ersetzt und die Genauigkeit zusätzlich durch Feinabstimmung mit Einführung eines globalen Tokens verbessert. Fast Conformer, kombiniert mit einem Transformer-Decoder, übertrifft sowohl die Genauigkeit als auch die Geschwindigkeit der ursprünglichen Conformer-Architektur bei der Sprachübersetzung und der verstandenen mündlichen Sprache.