Mistral veröffentlicht Voxtral: Kosteneffizientes Open-Source-Audio-Modell für Unternehmen.
Mistral veröffentlicht Voxtral, sein erstes Open-Source-AI-Audio-Modell Mit der zunehmenden Fähigkeit künstlicher Intelligenz (KI) wird Sprache immer mehr zur bevorzugten Kommunikationsmethode zwischen Mensch und Maschine. Das französische KI-Start-up Mistral hat sich nun in den Wettkampf um Audio-Modelle eingebunden, indem es sein erstes offenes Modell veröffentlichte, das die Vorherrschaft geschlossener Unternehmenssysteme mit offenen Gewichtsalternativen herausfordern soll. Am Dienstag gab Mistral die Veröffentlichung von Voxtral bekannt, einer Familie von Audio-Modellen, die sich an Unternehmen richtet. Mistral betont, dass Voxtral das erste offene Modell ist, das „wirklich nutzbare Sprachintelligenz im Produktionsbetrieb“ bereitstellen kann. Damit bieten Entwickler eine Alternative zu preiswerteren, offenen Systemen, die Transkriptionen stottern lassen und das Verständnis von Inhalten begrenzt sind, sowie zu funktionaleren, aber geschlossenen Systemen, die teurer sind und weniger Kontrolle über die Implementierung ermöglichen. Für Unternehmen bedeutet dies, dass Voxtral eine kostengünstige Alternative bietet, die laut Mistral „weniger als halb so teuer“ wie vergleichbare Lösungen ist. Voxtral kann bis zu 30 Minuten Audio transkribieren. Dank seiner LLM-Basis (Large Language Model) kann das Modell Mistral Small 3.1 sogar bis zu 40 Minuten verstehen, sodass Nutzer Fragen zum Audioinhalt stellen, Zusammenfassungen generieren oder Sprachbefehle in Echtzeit in Aktionen wie API-Aufrufe oder Funktionsaufrufe umwandeln können. Voxtral ist zudem mehrsprachig und kann insgesamt neun Sprachen transkribieren und verstehen, darunter Englisch, Spanisch, Französisch, Portugeiesisch, Hindi, Deutsch, Niederländisch und Italienisch. Mistral bietet zwei Varianten seiner „Sprachverarbeitungsmodelle“ an. Die erste, Voxtral Small, verfügt über 24 Milliarden Parameter für produktionsfähige Deployments und ist damit konkurrenzfähig zu ElevenLabs Scribe, GPT-4o-mini und Gemini 2.5 Flash. Die zweite, Voxtral Mini, hat 3 Milliarden Parameter und ist für lokale und Edge-Deployments geeignet. Eine ultrakostengünstige, auf Transkription optimierte Version des 3-Milliarden-Parameter-Modells, namens Voxtral Mini Transcribe, verspricht besser als OpenAI Whisper zu performen und gleichzeitig weniger als halb so teuer zu sein. Nutzer können Voxtral kostenlos ausprobieren, indem sie die API auf Hugging Face herunterladen oder die Modelle in Mistrals Chatbot Le Chat testen. Die Integration der API in Anwendungen kostet nach Angaben des Unternehmens ab 0,001 US-Dollar pro Minute. Die Veröffentlichung von Voxtral erfolgt einen Monat nach der Ankündigung von Magistral, der ersten Familie von Schritt-für-Schritt-Problemlösemodellen von Mistral, die eine bessere Zuverlässigkeit bieten sollen. Mistral ist eines der führenden KI-Unternehmen in Europa und bekannt für seine Befürwortung offener AI-Modelle. Anfang dieses Monats berichtete TechCrunch, dass das Unternehmen dabei ist, bis zu 1 Milliarde US-Dollar in Eigenkapital von Investoren wie dem MGX-Fonds aus Abu Dhabi aufzunehmen. Branchenbewertung und Unternehmensprofil Industrieexperten betrachten die Veröffentlichung von Voxtral als einen wichtigen Schritt in Richtung größerer Transparenz und Kontrolle im Sektor der KI-basierten Audioverarbeitung. Sie loben Mistral für seine Offenheit und die Bereitstellung preiswerter, hochqualitativer Modelle, die sowohl für kleine als auch für große Unternehmen zugänglich sind. Mistral wurde 2019 gegründet und hat sich schnell einen Namen als Innovator in der KI-Landschaft gemacht. Das Unternehmen ist bekannt für seine fortschrittlichen Modelle und sein Engagement für die Offenlegung von Technologien. Mit der potenziellen Finanzierung von 1 Milliarde US-Dollar könnte Mistral in der Lage sein, seine Forschungs- und Entwicklungsaktivitäten weiter auszudehnen und seine Position in der KI-Branche zu stärken.