Conformer rapide à attention linéairement scalable pour une reconnaissance vocale efficace

Les modèles basés sur le conformer sont devenus l'architecture dominante en mode end-to-end pour les tâches de traitement du langage parlé. Dans le but d'améliorer l'efficacité d'entraînement et de déduction de l'architecture conformer, nous avons soigneusement révisé cette dernière en introduisant un nouveau schéma de sous-échantillonnage. Le modèle proposé, baptisé Fast Conformer (FC), est 2,8 fois plus rapide que le conformer original, permet une montée en échelle jusqu'à des milliards de paramètres sans modification de l'architecture centrale, et atteint également des performances de pointe sur les benchmarks de reconnaissance automatique de la parole. Pour permettre la transcription de discours longs pouvant atteindre 11 heures, nous avons remplacé l'attention globale par une attention à contexte limité après l'entraînement, tout en améliorant la précision grâce à un fin-tuning incluant un token global. Le Fast Conformer, combiné à un décodeur Transformer, dépasse également le conformer original en termes de précision et de vitesse pour les tâches de traduction automatique de la parole et de compréhension du langage parlé.