Whisper は、2023 年に OpenAI によってオープンソース化された音声テキスト変換モデルです。このチュートリアルは、GitHub 上のオープンソース プロジェクト Whisper Web に基づいており、Whisper を使用してブラウザで直接実行されます。
Whisper は音声認識用の ML に基づいており、WebGPU によって高速化できます。オンライン/ローカルのオーディオ ファイルのアップロードと 100 以上の言語での即時録音をサポートし、認識されたテキストは TXT および JSON ファイル形式へのエクスポートをサポートし、英語に直接翻訳することもできます。