Command Palette
Search for a command to run...
Parakeet-tdt-0.6b-v2 音声認識
このチュートリアルでは、単一の RTX 4090 コンピューティング リソースを使用し、モデルは英語の音声認識のみをサポートします。
Parakeet-tdt-0.6b-v2は、6億パラメータを備えた高性能自動音声認識(ASR)モデルで、NVIDIAが2025年5月にオープンソース化しました。Parakeetシリーズの最新バージョンです。FastConformerエンコーダーアーキテクチャとTDTデコーダーをベースとしたこのモデルは、最長24分の英語音声セグメントを1回のパスで効率的に書き起こすことができます。高精度かつ低遅延の英語音声書き起こしタスクに特化しており、リアルタイムの英語音声テキスト変換シナリオ(カスタマーサービスの対話、議事録、音声アシスタントなど)に適しています。関連研究論文も公開されています。 効率的な音声認識のための線形スケーラブルな注意を備えた高速コンフォーマー 。
2. 操作手順
1. コンテナを起動します
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. 使用デモ
Safari ブラウザを使用すると、オーディオが直接再生されない場合があります。
このチュートリアルでは、音声ファイルのアップロードに加えて、音声入力もサポートしています。

認識結果はCSVファイルとして保存できます

3. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

プロジェクトサポート
Githubユーザーに感謝 スーパーヤン このチュートリアルの展開。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.


