Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor einem Jahr

Größe

3.3 GB

GitHub

1. Einführung in das Tutorial

Whisper ist ein universelles Spracherkennungsmodell. Es wird anhand eines großen und vielfältigen Audiodatensatzes trainiert und kannMultitasking wie mehrsprachige Spracherkennung und Sprachübersetzung.

Mehrsprachige Spracherkennung: Automatische Erkennung der Sprache im Audio und Konvertierung in die Originalsprache für die Ausgabe
Sprachübersetzung: Basierend auf der Erkennung wird die Sprache für die Ausgabe ins Chinesische übersetzt (Standard)

Auf der DevDay-Veranstaltung am 1. Oktober 2024 kündigte OpenAI die Einführung des Sprachtranskriptionsmodells Whisper Large-v3-Turbo an, das insgesamt 809 Millionen Parameter nahezu ohne Qualitätsverlust umfasst.8-mal schneller als Large-v3

Das Whisper Large-V3-Turbo-Sprachtranskriptionsmodell ist eine optimierte Version von Large-V3 und verfügt nur über 4 Decoderebenen, während Large-V3 32 Ebenen hat. Modell Gesamt 809 Millionen Parameter, etwas größer als das mittlere Modell mit 769 Millionen Parametern, aber viel kleiner als das große Modell mit 1,55 Milliarden Parametern.Und der erforderliche VRAM beträgt 6 GB, während das große Modell 10 GB benötigt.

2. Bedienungsschritte

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

Wir bieten drei Funktionen zur Spracherkennung (Transkribieren) bzw. Übersetzung (Übersetzen) an:

Mikrofon Direktes Nutzen des Geräts zur Echtzeitaufnahme
Audiodatei Offline-Audio hochladen
YouTube Online Video

1. Mikrofon nutzt das Gerät direkt für Echtzeit-Aufnahme

Klicken Mikrofon (Standard), verwenden Sie das Gerätemikrofon, um Audio aufzunehmen. Nach der Aufnahme wird der Ton auf die Plattform hochgeladen. Wählen Sie Transkription oder Übersetzung aus und klicken Sie dann auf „Senden“, um den angegebenen Text zu generieren. (Die Übersetzung kann aus Gründen der Modellleistung ungenau sein.)

Abbildung 1 YouTube-Funktionsbetriebsprozess

2. Audiodatei-Upload Offline-Audio

Klicken Audiodatei, laden Sie das auszuführende Audio hoch oder ziehen Sie es in die Benutzeroberfläche, wählen Sie Transkription oder Übersetzung aus und klicken Sie dann auf „Senden“, um den angegebenen Text zu generieren.

Abbildung 2 YouTube-Funktionsbetriebsprozess

3. Youtube-Onlinevideo (Aufgrund von Netzwerkproblemen wird es möglicherweise nicht erkannt und erfordert mehrere Versuche. Die Demo dient nur als Referenz.)

Durchsuchen Sie die YouTube-Webseite und suchen Sie das gewünschte Video. Klicken Sie rechts auf „Teilen“ und eine URL wird angezeigt. Kopieren Sie diese URL in das Textfeld auf der Webseite. YouTube-URL , wählen Sie „Transkribieren“ oder „Übersetzen“ aus und klicken Sie dann auf „Senden“, um den angegebenen Text zu generieren.

Abbildung 4 YouTube-Funktionsbetriebsprozess

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

vor 2 Monaten

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor einem Jahr

Größe

3.3 GB

GitHub

openai/whisper

1. Einführung in das Tutorial

Mehrsprachige Spracherkennung: Automatische Erkennung der Sprache im Audio und Konvertierung in die Originalsprache für die Ausgabe
Sprachübersetzung: Basierend auf der Erkennung wird die Sprache für die Ausgabe ins Chinesische übersetzt (Standard)

2. Bedienungsschritte

Klicken Sie nach dem Starten des Containers auf die API-Adresse, um zur Weboberfläche zu gelangen

Wir bieten drei Funktionen zur Spracherkennung (Transkribieren) bzw. Übersetzung (Übersetzen) an:

Mikrofon Direktes Nutzen des Geräts zur Echtzeitaufnahme
Audiodatei Offline-Audio hochladen
YouTube Online Video

1. Mikrofon nutzt das Gerät direkt für Echtzeit-Aufnahme

2. Audiodatei-Upload Offline-Audio

3. Youtube-Onlinevideo (Aufgrund von Netzwerkproblemen wird es möglicherweise nicht erkannt und erfordert mehrere Versuche. Die Demo dient nur als Referenz.)

Austausch und Diskussion

Verwandt Notebooks

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

vor 2 Monaten

Chatterbox-Turbo Hochleistungsfähige Konversationssprachsynthese

vor einem Monat

GLM-ASR-Nano Intelligente Spracherkennung

vor 2 Monaten

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

vor 2 Monaten

Nemotron-Speech-Streaming-ASR: Demo Zur Automatischen Spracherkennung

vor 20 Tagen

TRELLIS.2 3D-Generierungsdemo

vor 19 Tagen

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

vor 2 Monaten

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

vor 3 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

1. Einführung in das Tutorial

2. Bedienungsschritte

1. Mikrofon nutzt das Gerät direkt für Echtzeit-Aufnahme

2. Audiodatei-Upload Offline-Audio

3. Youtube-Onlinevideo (Aufgrund von Netzwerkproblemen wird es möglicherweise nicht erkannt und erfordert mehrere Versuche. Die Demo dient nur als Referenz.)

Austausch und Diskussion

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

1. Einführung in das Tutorial

2. Bedienungsschritte

1. Mikrofon nutzt das Gerät direkt für Echtzeit-Aufnahme

2. Audiodatei-Upload Offline-Audio

3. Youtube-Onlinevideo (Aufgrund von Netzwerkproblemen wird es möglicherweise nicht erkannt und erfordert mehrere Versuche. Die Demo dient nur als Referenz.)

Austausch und Diskussion

Verwandt Notebooks

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Chatterbox-Turbo Hochleistungsfähige Konversationssprachsynthese

GLM-ASR-Nano Intelligente Spracherkennung

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Nemotron-Speech-Streaming-ASR: Demo Zur Automatischen Spracherkennung

TRELLIS.2 3D-Generierungsdemo

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Whisper-large-v3-turbo-Demo Zur Spracherkennung Und -übersetzung

1. Einführung in das Tutorial

2. Bedienungsschritte

1. Mikrofon nutzt das Gerät direkt für Echtzeit-Aufnahme

2. Audiodatei-Upload Offline-Audio

3. Youtube-Onlinevideo (Aufgrund von Netzwerkproblemen wird es möglicherweise nicht erkannt und erfordert mehrere Versuche. Die Demo dient nur als Referenz.)

Austausch und Diskussion

Verwandt Notebooks

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Chatterbox-Turbo Hochleistungsfähige Konversationssprachsynthese

GLM-ASR-Nano Intelligente Spracherkennung

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Nemotron-Speech-Streaming-ASR: Demo Zur Automatischen Spracherkennung

TRELLIS.2 3D-Generierungsdemo

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Chatterbox-Turbo Hochleistungsfähige Konversationssprachsynthese

GLM-ASR-Nano Intelligente Spracherkennung

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Nemotron-Speech-Streaming-ASR: Demo Zur Automatischen Spracherkennung

TRELLIS.2 3D-Generierungsdemo

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

Verwandt Notebooks

Z-Image-Turbo: Ein Hocheffizientes 6B-Parameter-Bildgenerierungsmodell

Chatterbox-Turbo Hochleistungsfähige Konversationssprachsynthese

GLM-ASR-Nano Intelligente Spracherkennung

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Nemotron-Speech-Streaming-ASR: Demo Zur Automatischen Spracherkennung

TRELLIS.2 3D-Generierungsdemo

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Video: Meituans Open-Source-KI-Videogenerierungsmodell

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.