NVIDIA lance un jeu de données et des modèles open source pour révolutionner la reconnaissance vocale multilingue en Europe
NVIDIA lance un ensemble de données ouvertes et de modèles pour l’intelligence artificielle vocale multilingue Parmi les environ 7 000 langues parlées dans le monde, une minorité seulement est prise en charge par les modèles d’intelligence artificielle. Pour remédier à ce déséquilibre, NVIDIA dévoile un nouveau jeu de données, Granary, ainsi que deux nouveaux modèles — Canary et Parakeet — conçus pour accélérer le développement de technologies de reconnaissance et de traduction vocales de haute qualité dans 25 langues européennes, y compris des langues peu représentées comme le croate, l’estonien ou le maltais. Ces outils permettront aux développeurs de déployer plus facilement des applications vocales à grande échelle, telles que des chatbots multilingues, des assistants vocaux pour le service client ou des services de traduction en temps quasi réel. Le jeu de données Granary, ainsi que les modèles Canary-1b-v2 et Parakeet-tdt-0.6b-v3, sont désormais disponibles sur Hugging Face. La publication scientifique détaillant le projet sera présentée à Interspeech, conférence internationale dédiée au traitement du langage, qui se tiendra aux Pays-Bas du 17 au 21 août 2025. Combler le manque de données grâce à une pipeline innovante Le développement de Granary a été mené par l’équipe NVIDIA de recherche en IA vocale, en collaboration avec des chercheurs de l’Université Carnegie Mellon et de la Fondazione Bruno Kessler. Grâce à une pipeline de traitement innovante alimentée par le toolkit NVIDIA NeMo Speech Data Processor, des enregistrements audio non étiquetés ont été transformés en données structurées et de haute qualité, sans nécessiter d’annotation humaine coûteuse. Cette approche ouverte, disponible en code source sur GitHub, permet de valoriser les données publiques existantes et de les préparer efficacement pour l’entraînement des modèles. Le jeu de données Granary fournit ainsi une ressource essentielle pour développer des systèmes de reconnaissance vocale et de traduction dans presque toutes les 24 langues officielles de l’Union européenne, ainsi que le russe et l’ukrainien. Pour les langues peu représentées dans les bases de données annotées, Granary constitue un levier majeur pour construire des technologies vocales plus inclusives, reflétant mieux la diversité linguistique du continent — tout en réduisant considérablement la quantité de données nécessaires. Selon les résultats présentés dans le papier d’Interspeech, il faut environ la moitié des données de Granary pour atteindre un niveau de précision équivalent à celui des meilleurs jeux de données existants dans les tâches de reconnaissance (ASR) et de traduction vocale (AST). Accélération de la transcription avec NVIDIA NeMo Les modèles Canary-1b-v2 et Parakeet-tdt-0.6b-v3 illustrent les performances possibles avec Granary. Canary-1b-v2, optimisé pour la précision sur des tâches complexes, étend la couverture linguistique de la famille Canary de 4 à 25 langues. Il atteint une qualité comparable à celle de modèles trois fois plus volumineux, tout en exécutant les inférences jusqu’à 10 fois plus vite. Parakeet-tdt-0.6b-v3, quant à lui, est conçu pour des applications exigeant une haute performance et une faible latence. Il peut traiter des segments audio de 24 minutes en une seule passe, détecter automatiquement la langue d’entrée et produire une transcription avec ponctuation, majuscules et horodatages au niveau des mots. Ces deux modèles sont intégrés à la suite logicielle NVIDIA NeMo, un cadre modulaire pour gérer tout le cycle de vie des modèles d’IA. Grâce à NeMo Curator, l’équipe a pu filtrer les exemples synthétiques et ne conserver que les données de haute qualité. Le toolkit NeMo Speech Data Processor a également permis d’aligner les transcriptions avec les fichiers audio et de convertir les données dans les formats requis. En rendant accessible la méthodologie derrière Granary ainsi que les modèles, NVIDIA ouvre la voie à une innovation accélérée dans le domaine de l’IA vocale, tant pour d’autres langues que pour de nouveaux modèles. Les développeurs peuvent désormais adapter ce flux de traitement à leurs propres besoins, favorisant ainsi un avenir plus inclusif et performant pour les technologies vocales à l’échelle mondiale.