HyperAI

Online-Spracherkennungstool Whisper Web

Einführung

Whisper ist ein Spracherkennungsmodell, das OpenAI 2023 als Open Source freigegeben hat. Sein Generierungseffekt wurde weithin gelobt. Dieses Tutorial basiert auf dem Open-Source-Projekt Whisper Web auf GitHub und führt Whisper direkt im Browser aus.

Whisper verwendet ML zur Spracherkennung und kann mit WebGPU beschleunigt werden. Es unterstützt das Online-/lokale Hochladen von Audiodateien und die sofortige Aufnahme in mehr als 100 Sprachen. Der erkannte Text kann in den Dateiformaten TXT und JSON exportiert und auch direkt ins Englische übersetzt werden.

Effektanzeige

Ausführungsmethode (nach dem Starten des Containers dauert die Initialisierung etwa 10 Sekunden, anschließend werden die folgenden Vorgänge ausgeführt)

1. Kopieren Sie nach dem Klonen und Starten des Containers die API in Ihren Browser

2. Erhalten Sie Audiodateien durch Online-/lokalen Upload oder sofortige Aufnahme

3. Wählen Sie das Modell entsprechend Ihren Anforderungen

4. Nach Abschluss der Modellauswahl direkt die Ergebnisse generieren