Open ASR Leaderboard 2025 : Les meilleurs modèles multilingues et pour transcription longue dévoilés
À la date du 21 novembre 2025, le Open ASR Leaderboard répertorie plus de 60 modèles open source et fermiers provenant de 18 organisations, évalués sur 11 jeux de données couvrant des tâches variées, notamment la transcription multilingue et les fichiers audio longs. Ce classement s’impose désormais comme une référence indépendante pour comparer les performances en précision et en efficacité des systèmes de reconnaissance automatique de la parole (ASR), en réponse à une prolifération massive de modèles — près de 27 000 disponibles sur le Hub Hugging Face — souvent difficiles à comparer dans des conditions réalistes. Les résultats montrent que les architectures combinant un encodeur Conformer avec un décodeur basé sur un grand modèle linguistique (LLM) dominent actuellement en précision pour la transcription en anglais. Des modèles comme NVIDIA’s Canary-Qwen-2.5B, IBM’s Granite-Speech-3.3-8B ou Microsoft’s Phi-4-Multimodal-Instruct affichent les taux d’erreur de mot (WER) les plus bas, démontrant que l’intégration du raisonnement linguistique via un LLM améliore significativement la qualité de la transcription. NVIDIA a également introduit Fast Conformer, une version 2 fois plus rapide du Conformer, utilisée dans ses modèles Canary et Parakeet. Toutefois, cette précision s’accompagne d’un coût en vitesse : les décodeurs LLM sont plus lents que les approches plus simples. L’efficacité est mesurée par le facteur de temps réel inverse (RTFx), où une valeur plus élevée indique une meilleure performance. Pour des applications nécessitant une haute throughput — comme la transcription en temps réel ou en lot de réunions, podcasts ou conférences — les décodeurs CTC ou TDT offrent une avance considérable (10 à 100 fois plus rapides), malgré une légère dégradation du WER. Par exemple, Parakeet CTC 1.1B de NVIDIA atteint un RTFx de 2793,75 contre 68,56 pour Whisper Large v3, avec un WER de 6,68 contre 6,43. En matière de multilinguisme, Whisper Large v3 d’OpenAI reste une référence solide, supportant 99 langues. Cependant, des versions affinées comme Distil-Whisper ou CrisperWhisper surpassent souvent le modèle original sur les tâches en anglais, illustrant l’avantage de l’affinage ciblé. Malgré leur couverture linguistique impressionnante (plus de 1 000 langues pour des systèmes comme MMS de Meta ou Omnilingual ASR), ces modèles auto-supervisés restent moins précis que ceux spécialisés par langue. Cette tension entre spécialisation et généralisation reste centrale : se concentrer sur l’anglais améliore la performance, mais réduit la couverture multilingue. Des initiatives communautaires locales, comme le Open Universal Arabic ASR Leaderboard ou le Russian ASR Leaderboard, soulignent les défis spécifiques aux phonologies et morphologies locales, ainsi que la variation dialectale (diglossie). Ces plateformes encouragent le partage de données, de modèles affinés et de benchmarks transparents, notamment pour les langues moins représentées. Enfin, pour les transcriptions longues, les systèmes fermiers conservent un avantage significatif, probablement grâce à un ajustement de domaine, à des stratégies de découpage optimisées ou à une mise en œuvre industrielle poussée. Parmi les modèles open source, Whisper Large v3 reste le meilleur, mais les modèles CTC comme Parakeet CTC offrent une excellente alternative en termes de throughput, malgré leur limitation à l’anglais. Le Open ASR Leaderboard continue de jouer un rôle clé dans la transparence et l’innovation, en encourageant les contributions via GitHub. Son expansion prévue vers davantage de langues, de données et de tâches (comme la détection de deepfakes vocaux) ouvre des perspectives prometteuses pour l’avenir de l’ASR open source.
