Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung
whisper-large-v3-turbo: 8-mal schneller als large-v3 mit fast keinem Qualitätsverlust

1. Einführung in das Tutorial
Whisper ist ein universelles Spracherkennungsmodell. Es wird anhand eines großen und vielfältigen Audiodatensatzes trainiert und kannMultitasking wie mehrsprachige Spracherkennung und Sprachübersetzung.
- Mehrsprachige Spracherkennung: Automatische Erkennung der Sprache im Audio und Konvertierung in die Originalsprache für die Ausgabe
- Sprachübersetzung: Basierend auf der Erkennung wird die Sprache für die Ausgabe ins Chinesische übersetzt (Standard)
Auf der DevDay-Veranstaltung am 1. Oktober 2024 kündigte OpenAI die Einführung des Sprachtranskriptionsmodells Whisper Large-v3-Turbo an, das insgesamt 809 Millionen Parameter nahezu ohne Qualitätsverlust umfasst.8-mal schneller als Large-v3
Das Whisper Large-V3-Turbo-Sprachtranskriptionsmodell ist eine optimierte Version von Large-V3 und verfügt nur über 4 Decoderebenen, während Large-V3 32 Ebenen hat. Modell Gesamt 809 Millionen Parameter, etwas größer als das mittlere Modell mit 769 Millionen Parametern, aber viel kleiner als das große Modell mit 1,55 Milliarden Parametern.Und der erforderliche VRAM beträgt 6 GB, während das große Modell 10 GB benötigt.
2. Bedienungsschritte
Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

Wir bieten drei Funktionen zur Spracherkennung (Transkribieren) bzw. Übersetzung (Übersetzen) an:
- Mikrofon Direktes Nutzen des Geräts zur Echtzeitaufnahme
- Audiodatei Offline-Audio hochladen
- YouTube Online Video
1. Mikrofon nutzt das Gerät direkt für Echtzeit-Aufnahme
Klicken Mikrofon (Standard), verwenden Sie das Gerätemikrofon, um Audio aufzunehmen. Nach der Aufnahme wird der Ton auf die Plattform hochgeladen. Wählen Sie Transkription oder Übersetzung aus und klicken Sie dann auf „Senden“, um den angegebenen Text zu generieren. (Die Übersetzung kann aus Gründen der Modellleistung ungenau sein.)


2. Audiodatei-Upload Offline-Audio
Klicken Audiodatei, laden Sie das auszuführende Audio hoch oder ziehen Sie es in die Benutzeroberfläche, wählen Sie Transkription oder Übersetzung aus und klicken Sie dann auf „Senden“, um den angegebenen Text zu generieren.

3. Youtube-Onlinevideo (Aufgrund von Netzwerkproblemen wird es möglicherweise nicht erkannt und erfordert mehrere Versuche. Die Demo dient nur als Referenz.)
Durchsuchen Sie die YouTube-Webseite und suchen Sie das gewünschte Video. Klicken Sie rechts auf „Teilen“ und eine URL wird angezeigt. Kopieren Sie diese URL in das Textfeld auf der Webseite. YouTube-URL , wählen Sie „Transkribieren“ oder „Übersetzen“ aus und klicken Sie dann auf „Senden“, um den angegebenen Text zu generieren.


Austausch und Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓
