Whisper 是 OpenAI 于 2023 年开源的语音转文本模型,其生成效果广受好评,该教程是基于 GitHub 上的开源项目 Whisper Web,直接在浏览器中运行使用 Whisper 。
Whisper 基于 ML 进行语音识别,并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音,识别到的文本支持导出 TXT 和 JSON 两种文件格式,还可以直接翻译为英文。