Einführung

Whisper ist ein Spracherkennungsmodell, das OpenAI 2023 als Open Source freigegeben hat. Sein Generierungseffekt wurde weithin gelobt. Dieses Tutorial basiert auf dem Open-Source-Projekt Whisper Web auf GitHub und führt Whisper direkt im Browser aus.

Whisper verwendet ML zur Spracherkennung und kann mit WebGPU beschleunigt werden. Es unterstützt das Online-/lokale Hochladen von Audiodateien und die sofortige Aufnahme in mehr als 100 Sprachen. Der erkannte Text kann in den Dateiformaten TXT und JSON exportiert und auch direkt ins Englische übersetzt werden.

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor einem Jahr

Größe

386.62 MB

Einführung

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 10 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Kopieren Sie nach dem Klonen und Starten des Containers die API in Ihren Browser

2. Erhalten Sie Audiodateien durch Online-/lokalen Upload oder sofortige Aufnahme

3. Wählen Sie das Modell entsprechend Ihren Anforderungen

4. Nach Abschluss der Modellauswahl direkt die Ergebnisse generieren

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

HunyuanWorld-1.0: Ein 3D-Weltgenerierungsmodell

vor 9 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor einem Jahr

Größe

386.62 MB

Einführung

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 10 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Kopieren Sie nach dem Klonen und Starten des Containers die API in Ihren Browser

2. Erhalten Sie Audiodateien durch Online-/lokalen Upload oder sofortige Aufnahme

3. Wählen Sie das Modell entsprechend Ihren Anforderungen

4. Nach Abschluss der Modellauswahl direkt die Ergebnisse generieren

Verwandt Notebooks

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

vor 21 Tagen

GLM-ASR-Nano Intelligente Spracherkennung

vor 2 Monaten

DiffVox: Modell Zur Klangdifferenzierung

vor 3 Monaten

Docling: Tool Zur Dokumentanalyse

vor 2 Monaten

3D-Weihnachtsbaum Basierend Auf Gestenerkennung

vor 2 Monaten

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

vor einem Monat

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

vor 2 Monaten

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

vor 2 Monaten

HunyuanWorld-1.0: Ein 3D-Weltgenerierungsmodell

vor 9 Tagen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Online-Spracherkennungstool Whisper Web

Einführung

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 10 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Kopieren Sie nach dem Klonen und Starten des Containers die API in Ihren Browser

2. Erhalten Sie Audiodateien durch Online-/lokalen Upload oder sofortige Aufnahme

3. Wählen Sie das Modell entsprechend Ihren Anforderungen

4. Nach Abschluss der Modellauswahl direkt die Ergebnisse generieren

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Online-Spracherkennungstool Whisper Web

Einführung

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 10 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Kopieren Sie nach dem Klonen und Starten des Containers die API in Ihren Browser

2. Erhalten Sie Audiodateien durch Online-/lokalen Upload oder sofortige Aufnahme

3. Wählen Sie das Modell entsprechend Ihren Anforderungen

4. Nach Abschluss der Modellauswahl direkt die Ergebnisse generieren

Verwandt Notebooks

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

GLM-ASR-Nano Intelligente Spracherkennung

DiffVox: Modell Zur Klangdifferenzierung

Docling: Tool Zur Dokumentanalyse

3D-Weihnachtsbaum Basierend Auf Gestenerkennung

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-1.0: Ein 3D-Weltgenerierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Online-Spracherkennungstool Whisper Web

Einführung

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 10 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Kopieren Sie nach dem Klonen und Starten des Containers die API in Ihren Browser

2. Erhalten Sie Audiodateien durch Online-/lokalen Upload oder sofortige Aufnahme

3. Wählen Sie das Modell entsprechend Ihren Anforderungen

4. Nach Abschluss der Modellauswahl direkt die Ergebnisse generieren

Verwandt Notebooks

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

GLM-ASR-Nano Intelligente Spracherkennung

DiffVox: Modell Zur Klangdifferenzierung

Docling: Tool Zur Dokumentanalyse

3D-Weihnachtsbaum Basierend Auf Gestenerkennung

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-1.0: Ein 3D-Weltgenerierungsmodell

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

GLM-ASR-Nano Intelligente Spracherkennung

DiffVox: Modell Zur Klangdifferenzierung

Docling: Tool Zur Dokumentanalyse

3D-Weihnachtsbaum Basierend Auf Gestenerkennung

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-1.0: Ein 3D-Weltgenerierungsmodell

Verwandt Notebooks

Fara-7B: Ein Hocheffizientes Webbasiertes Intelligentes Agentenmodell

GLM-ASR-Nano Intelligente Spracherkennung

DiffVox: Modell Zur Klangdifferenzierung

Docling: Tool Zur Dokumentanalyse

3D-Weihnachtsbaum Basierend Auf Gestenerkennung

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Open-AutoGLM: Intelligenter Assistent Für Mobile Geräte

Supertonic: Ein Auf ONNX Basierendes Hochgeschwindigkeits-TTS-Sprachsynthesemodell.

HunyuanWorld-1.0: Ein 3D-Weltgenerierungsmodell