HyperAIHyperAI

Command Palette

Search for a command to run...

Voxtral dévoile Transcribe 2 : des modèles speech-to-text ultrarapides, multilingues et open-source pour une transcription de pointe

Voxtral lance Voxtral Transcribe 2, une nouvelle génération de modèles de reconnaissance vocale à haute performance, caractérisée par une qualité transcriptionnelle exceptionnelle, une diarisation avancée et une latence ultra-faible. Deux modèles sont désormais disponibles : Voxtral Mini Transcribe V2, conçu pour les traitements par lots, et Voxtral Realtime, optimisé pour les applications en temps réel. Le modèle Realtime, distribué sous licence Apache 2.0 avec ses poids ouverts, est accessible sur Hugging Face Hub. Une plateforme d’essai audio intégrée à Mistral Studio permet désormais de tester instantanément la transcription, avec diarisation et balisage temporel, directement dans le navigateur. Voxtral Realtime repose sur une architecture de flux innovante, qui traite l’audio au fur et à mesure de son arrivée, sans découpage préalable. Grâce à cette approche, il atteint une latence configurable à moins de 200 ms, ouvrant la voie à des applications vocales interactives comme les assistants conversationnels, les traductions instantanées ou les systèmes de suivi de réunions en direct. Sur le benchmark FLEURS, il atteint un taux d’erreur de mots (WER) comparable à celui de Mini Transcribe V2 à 2,4 secondes de délai — idéal pour la sous-titrage — tout en restant dans une fourchette de 1 à 2 % d’erreur à 480 ms, offrant une précision proche de celle des modèles hors ligne. Multilingue par nature, il supporte 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien, néerlandais) et, avec seulement 4 milliards de paramètres, il s’exécute efficacement sur dispositifs edge, garantissant confidentialité et sécurité. Voxtral Mini Transcribe V2 améliore significativement la précision transcriptionnelle et la diarisation, notamment sur des benchmarks comme Switchboard, CallHome, AMI ou TalkBank. Il atteint un taux d’erreur moyen de 4 % sur FLEURS, avec une tarification de 0,003 $ par minute — le meilleur rapport qualité-prix du marché. Il surpasse GPT-4o mini, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova en précision, tout en traitant l’audio 3 fois plus vite que Scribe v2 d’ElevenLabs, à coût réduit à un cinquième. Ce modèle inclut des fonctionnalités entreprises clés : diarisation avec étiquetage des locuteurs et horodatage précis, biais contextuel (jusqu’à 100 mots/phrases pour guider la reconnaissance de noms propres ou termes techniques), horodatage au niveau du mot, prise en charge de langues non anglophones supérieure à la concurrence, robustesse face au bruit (applicable en environnements industriels ou call centers), traitement d’audios jusqu’à 3 heures en une seule requête. Une plateforme d’essai interactive dans Mistral Studio permet d’uploader jusqu’à 10 fichiers audio (formats .mp3, .wav, .m4a, .flac, .ogg, jusqu’à 1 Go), d’activer la diarisation, de choisir la granularité des timestamps et d’ajouter des termes de contexte. Les deux modèles sont compatibles avec des déploiements sécurisés en mode on-premise ou cloud privé, conformes aux normes GDPR et HIPAA. Voxtral Mini Transcribe V2 est disponible dès maintenant via API à 0,003 $/min, tandis que Voxtral Realtime est accessible à 0,006 $/min ou en modèle open-source. L’entreprise recrute des talents passionnés par l’IA vocale et le développement de solutions accessibles aux développeurs. Évaluation : Selon des experts du secteur, la combinaison de latence ultra-basse, de qualité transcriptionnelle élevée et de déploiement flexible positionne Voxtral Transcribe 2 comme une référence dans le domaine de la transcription vocale. La stratégie open-weight pour Realtime, couplée à une intégration fluide dans Mistral Studio, facilite l’adoption par la communauté développeurs. Pour les entreprises, les fonctionnalités d’entreprise et la conformité réglementaire renforcent la crédibilité du produit. Voxtral se distingue ainsi par une approche équilibrée entre innovation, performance et accessibilité.

Liens associés

Voxtral dévoile Transcribe 2 : des modèles speech-to-text ultrarapides, multilingues et open-source pour une transcription de pointe | Articles tendance | HyperAI