Whisper Web 在线语音识别工具

简介

Whisper 是 OpenAI 于 2023 年开源的语音转文本模型,其生成效果广受好评,该教程是基于 GitHub 上的开源项目 Whisper Web,直接在浏览器中运行使用 Whisper 。

Whisper 基于 ML 进行语音识别,并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音,识别到的文本支持导出 TXT 和 JSON 两种文件格式,还可以直接翻译为英文。

效果展示

运行方法(启动容器后需要约 10s 初始化,之后再进行如下操作)

1. 克隆并启动容器后,复制 API 到浏览器中

2. 通过线上/本地上传或即时录音得到音频文件

3. 根据需求进行模型的选择

4. 完成模型选择后,直接生成结果