1. Einführung in das Tutorial

Voxtral ist ein fortschrittliches Audiomodell, das im Juli 2025 von Mistral AI eingeführt wurde. Dank seiner hervorragenden Sprachtranskription und seines tiefen Verständnisses fördert es Sprache als natürliche Form der Mensch-Computer-Interaktion. Voxtral ist in den Versionen 24B und 3B erhältlich und eignet sich für den Produktionsmaßstab bzw. den lokalen Einsatz. Voxtral unterstützt mehrere Sprachen, Langtextkontext, integrierte Frage- und Antwort- sowie Zusammenfassungsfunktionen und kann Backend-Funktionsaufrufe direkt auslösen. Die Leistung von Voxtral übertrifft bestehende Open-Source-Modelle und proprietäre APIs in mehreren Benchmarks, ist kostengünstiger und findet breite Anwendung in verschiedenen Szenarien, was zur Popularisierung der Sprachinteraktion beiträgt.

Hauptmerkmale:

Kontextbezogene Verarbeitung langer Texte: Unterstützt bis zu 30 Minuten Audiotranskription und 40 Minuten Audioverständnis und kann komplexe Langforminhalte verarbeiten.

Integrierte Fragen und Antworten sowie Zusammenfassungen: Stellen Sie Fragen direkt zum Audioinhalt oder generieren Sie strukturierte Zusammenfassungen, ohne dass zusätzliche ASR- und Sprachmodelle erforderlich sind.

Mehrsprachige Unterstützung: Automatische Spracherkennung, Unterstützung mehrerer gängiger Sprachen (wie Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch usw.), um den Anforderungen globaler Benutzer gerecht zu werden.

Sprachgesteuerte Funktionsaufrufe: Lösen Sie Backend-Funktionen, Workflows oder API-Aufrufe direkt basierend auf der Sprachabsicht des Benutzers aus, ohne dass zwischengeschaltete Analyseschritte erforderlich sind.

Textverständnisfähigkeit: Die Textverständnisfähigkeit von Mistral Small 3.1 bleibt erhalten und unterstützt die Texteingabe und -verarbeitung.

Optimierte Transkriptionsleistung: Bietet hochoptimierte Transkriptionsendpunkte, die kostengünstig und für groß angelegte Anwendungen geeignet sind.

Die Rechenressourcen dieses Tutorials nutzen die Dual-Card RTX A6000. Das in diesem Tutorial eingesetzte Modell ist Voxtral-Small-24B-2507. Zwei Funktionen, Audiotranskription und Audioverständnis, stehen zum Testen zur Verfügung.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 8 Monaten

1. Einführung in das Tutorial

Hauptmerkmale:

Kontextbezogene Verarbeitung langer Texte: Unterstützt bis zu 30 Minuten Audiotranskription und 40 Minuten Audioverständnis und kann komplexe Langforminhalte verarbeiten.
Integrierte Fragen und Antworten sowie Zusammenfassungen: Stellen Sie Fragen direkt zum Audioinhalt oder generieren Sie strukturierte Zusammenfassungen, ohne dass zusätzliche ASR- und Sprachmodelle erforderlich sind.
Mehrsprachige Unterstützung: Automatische Spracherkennung, Unterstützung mehrerer gängiger Sprachen (wie Englisch, Spanisch, Französisch, Portugiesisch, Hindi, Deutsch usw.), um den Anforderungen globaler Benutzer gerecht zu werden.
Sprachgesteuerte Funktionsaufrufe: Lösen Sie Backend-Funktionen, Workflows oder API-Aufrufe direkt basierend auf der Sprachabsicht des Benutzers aus, ohne dass zwischengeschaltete Analyseschritte erforderlich sind.
Textverständnisfähigkeit: Die Textverständnisfähigkeit von Mistral Small 3.1 bleibt erhalten und unterstützt die Texteingabe und -verarbeitung.
Optimierte Transkriptionsleistung: Bietet hochoptimierte Transkriptionsendpunkte, die kostengünstig und für groß angelegte Anwendungen geeignet sind.

Die Rechenressourcen dieses Tutorials nutzen die Dual-Card RTX A6000. Das in diesem Tutorial eingesetzte Modell ist Voxtral-Small-24B-2507. Zwei Funktionen, Audiotranskription und Audioverständnis, stehen zum Testen zur Verfügung.

Anhang: Ein-Klick-Bereitstellung der 3B Voxtral-Modelldemo

2. Effektanzeige

Audiotranskription

Audioverständnis

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 5–10 Minuten und aktualisieren Sie die Seite.

1. Audiotranskription

2. Audioverständnis

4. Diskussion

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Command Palette

Voxtral-Small-24B-2507 Demo Des Sprachverständnismodells

1. Einführung in das Tutorial