Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells
1. Einführung in das Tutorial
Voxtral ist ein fortschrittliches Audiomodell, das im Juli 2025 von Mistral AI eingeführt wurde. Dank seiner hervorragenden Sprachtranskription und seines tiefen Verständnisses fördert es Sprache als natürliche Form der Mensch-Computer-Interaktion. Voxtral ist in den Versionen 24B und 3B erhältlich und eignet sich für den Produktionsmaßstab bzw. den lokalen Einsatz. Voxtral unterstützt mehrere Sprachen, Langtextkontext, integrierte Frage- und Antwort- sowie Zusammenfassungsfunktionen und kann Backend-Funktionsaufrufe direkt auslösen. Die Leistung von Voxtral übertrifft bestehende Open-Source-Modelle und proprietäre APIs in mehreren Benchmarks, ist kostengünstiger und findet breite Anwendung in verschiedenen Szenarien, was zur Popularisierung der Sprachinteraktion beiträgt.
Hauptmerkmale:
- Kontextbezogene Verarbeitung langer Texte: Unterstützt bis zu 30 Minuten Audiotranskription und 40 Minuten Audioverständnis und kann komplexe Langforminhalte verarbeiten.
- Integrierte Fragen und Antworten sowie Zusammenfassungen: Stellen Sie Fragen direkt zum Audioinhalt oder generieren Sie strukturierte Zusammenfassungen, ohne dass zusätzliche ASR- und Sprachmodelle erforderlich sind.
- Mehrsprachige Unterstützung: Automatische Spracherkennung, Unterstützung mehrerer gängiger Sprachen (wie Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch usw.), um den Anforderungen globaler Benutzer gerecht zu werden.
- Sprachgesteuerte Funktionsaufrufe: Lösen Sie Backend-Funktionen, Workflows oder API-Aufrufe direkt basierend auf der Sprachabsicht des Benutzers aus, ohne dass zwischengeschaltete Analyseschritte erforderlich sind.
- Textverständnisfähigkeit: Die Textverständnisfähigkeit von Mistral Small 3.1 bleibt erhalten und unterstützt die Texteingabe und -verarbeitung.
- Optimierte Transkriptionsleistung: Bietet hochoptimierte Transkriptionsendpunkte, die kostengünstig und für groß angelegte Anwendungen geeignet sind.
Die Rechenressourcen dieses Tutorials nutzen die Dual-Card RTX A6000. Das in diesem Tutorial eingesetzte Modell ist Voxtral-Small-24B-2507. Zwei Beispiele, Audiotranskription und Audioverständnis, stehen zum Testen zur Verfügung.
2. Effektanzeige
Audiotranskription

Audioverständnis

3. Bedienungsschritte
1. Starten Sie den Container

2. Anwendungsschritte
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 5–10 Minuten und aktualisieren Sie die Seite.
1. Audiotranskription

2. Audioverständnis

4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓
