Voxtral stellt neue Spracherkennungsmodelle vor mit niedriger Latenz und hoher Genauigkeit.
Voxtral hat mit der Einführung von Voxtral Transcribe 2 zwei bahnbrechende Sprach-zu-Text-Modelle vorgestellt, die höchste Genauigkeit, ultraschnelle Latenz und umfassende Unternehmensfunktionen kombinieren. Die Familie umfasst zwei spezialisierte Modelle: Voxtral Mini Transcribe V2 für Batch-Transkriptionen und Voxtral Realtime für Echtzeitanwendungen. Letzteres ist als Open-Weights-Modell unter der Apache-2.0-Lizenz verfügbar und ermöglicht Entwicklern volle Transparenz und Anpassungsfreiheit. Beide Modelle unterstützen 13 Sprachen, darunter Englisch, Chinesisch, Spanisch, Arabisch, Deutsch, Japanisch und Koreanisch, mit signifikant besserer Leistung als Konkurrenzprodukte. Voxtral Realtime setzt auf eine neuartige Streaming-Architektur, die Audio kontinuierlich während der Aufnahme transkribiert – im Gegensatz zu herkömmlichen Methoden, die Audio in Blöcke aufteilen. Dadurch erreicht es Latenzen ab unter 200 ms, was neue Anwendungen wie Echtzeit-Sprachassistenten, Live-Untertitelung und interaktive Sprachsysteme ermöglicht. Bei einer Verzögerung von 2,4 Sekunden erreicht es die Genauigkeit von Voxtral Mini Transcribe V2, bei 480 ms bleibt der Wortfehlerquote nur 1–2 Prozentpunkte über dem Offline-Standard – eine beeindruckende Leistung für Echtzeit. Mit nur 4 Milliarden Parametern läuft das Modell effizient auf Edge-Geräten, was Datenschutz und Sicherheit für sensible Anwendungen gewährleistet. Voxtral Mini Transcribe V2 überzeugt durch erhebliche Verbesserungen in Transkriptions- und Diarisierungsgenauigkeit. Auf der FLEURS-Benchmark-Liste erreicht es eine durchschnittliche Wortfehlerquote von etwa 4 % und ist bei der Kostenleistung ungeschlagen: nur 0,003 USD pro Minute. Es übertrifft GPT-4o mini, Gemini 2.5 Flash, Assembly Universal und Deepgram Nova hinsichtlich Genauigkeit und verarbeitet Audio bis zu dreimal schneller als ElevenLabs’ Scribe v2, bei vergleichbarer Qualität und nur einem Fünftel der Kosten. Zu den Enterprise-Features gehören präzise Speaker-Diarisierung mit Start- und Endzeiten, Context-Biasing für bis zu 100 Begriffe (z. B. Firmennamen oder Fachtermini), Wort-level-Timestamps für Untertitel oder Audio-Suche, verbesserte Robustheit gegenüber Hintergrundgeräuschen und die Verarbeitung von Aufnahmen bis zu drei Stunden in einer Anfrage. Ein neuer Audio-Playground in Mistral Studio ermöglicht sofortiges Testen beider Modelle: Benutzer können bis zu 10 Audio-Dateien hochladen (MP3, WAV, M4A, FLAC, OGG bis 1 GB), Diarisierung aktivieren, Timestamp-Granularität anpassen und fachspezifische Begriffe vorgeben. Die Modelle sind GDPR- und HIPAA-konform nutzbar, mit Unterstützung für On-Premise- und private Cloud-Deployment. Voxtral Mini Transcribe V2 ist ab sofort über API verfügbar, Voxtral Realtime zusätzlich als Open-Weights auf Hugging Face. Industrieexperten loben die Fortschritte in Echtzeit-Transkription und Multilingualität als Meilenstein für Sprach-IA. Voxtral positioniert sich als ernstzunehmender Akteur im Bereich Speech AI, besonders durch die Kombination aus Performance, Kosten und Open-Source-Transparenz. Das Unternehmen sucht weiterhin talentierte Entwickler, um die Zukunft der Sprachtechnologie mitzugestalten.
