HyperAIHyperAI

Command Palette

Search for a command to run...

ChunkFormer : Conformer à découpage masqué pour la transcription automatique de discours longs

Khanh Le Tuan Vu Ho Dung Tran Duc Thanh Chau

Résumé

Le déploiement à grande échelle des modèles ASR soulève des défis majeurs en matière de gestion des ressources matérielles, notamment pour les tâches de transcription longue où l’audio peut durer des heures. Les grands modèles Conformer, malgré leurs capacités, ne peuvent traiter que 15 minutes d’audio sur une GPU de 80 Go. En outre, les longueurs d’entrée variables aggravent les inefficacités, car le batch standard entraîne un surpadding important, augmentant ainsi la consommation de ressources et le temps d’exécution. Pour remédier à ce problème, nous introduisons ChunkFormer, un modèle ASR efficace qui utilise un traitement par morceaux avec contexte relatif à droite, permettant ainsi la transcription d’audios longs sur des GPUs à faible mémoire. ChunkFormer peut traiter jusqu’à 16 heures d’audio sur une GPU de 80 Go, soit 1,5 fois plus que l’état de l’art actuel, FastConformer, tout en améliorant les performances de transcription longue avec une réduction absolue du taux d’erreur mot allant jusqu’à 7,7 %, tout en maintenant une précision équivalente sur les tâches courtes par rapport à Conformer. En éliminant le besoin de padding dans le batch standard, la technique de batch masqué de ChunkFormer réduit le temps d’exécution et la consommation mémoire de plus de 3 fois lors du traitement par batch, réduisant ainsi considérablement les coûts pour une large gamme de systèmes ASR, en particulier en ce qui concerne les ressources GPU nécessaires aux modèles déployés dans des applications réelles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp