il y a 17 jours

ChunkFormer : Conformer à découpage masqué pour la transcription automatique de discours longs

Khanh Le, Tuan Vu Ho, Dung Tran, Duc Thanh Chau

Résumé

Le déploiement à grande échelle des modèles ASR soulève des défis majeurs en matière de gestion des ressources matérielles, notamment pour les tâches de transcription longue où l’audio peut durer des heures. Les grands modèles Conformer, malgré leurs capacités, ne peuvent traiter que 15 minutes d’audio sur une GPU de 80 Go. En outre, les longueurs d’entrée variables aggravent les inefficacités, car le batch standard entraîne un surpadding important, augmentant ainsi la consommation de ressources et le temps d’exécution. Pour remédier à ce problème, nous introduisons ChunkFormer, un modèle ASR efficace qui utilise un traitement par morceaux avec contexte relatif à droite, permettant ainsi la transcription d’audios longs sur des GPUs à faible mémoire. ChunkFormer peut traiter jusqu’à 16 heures d’audio sur une GPU de 80 Go, soit 1,5 fois plus que l’état de l’art actuel, FastConformer, tout en améliorant les performances de transcription longue avec une réduction absolue du taux d’erreur mot allant jusqu’à 7,7 %, tout en maintenant une précision équivalente sur les tâches courtes par rapport à Conformer. En éliminant le besoin de padding dans le batch standard, la technique de batch masqué de ChunkFormer réduit le temps d’exécution et la consommation mémoire de plus de 3 fois lors du traitement par batch, réduisant ainsi considérablement les coûts pour une large gamme de systèmes ASR, en particulier en ce qui concerne les ressources GPU nécessaires aux modèles déployés dans des applications réelles.