Parakeet-tdt-0.6b-v2 音声認識
このチュートリアルでは、単一の RTX 4090 コンピューティング リソースを使用し、モデルは英語の音声認識のみをサポートします。
Parakeet-tdt-0.6b-v2は、NVIDIAが2025年5月にオープンソース化した、6億のパラメータを持つ高性能な自動音声認識(ASR)モデルです。Parakeetシリーズの最新バージョンです。このモデルは、FastConformer エンコーダー アーキテクチャと TDT デコーダーに基づいており、最大 24 分の英語のオーディオ クリップを一度に効率的に書き起こすことができます。このモデルは、高精度で低遅延の英語音声文字変換タスクに重点を置いており、リアルタイムの英語音声テキスト変換シナリオ(顧客サービスの会話、会議記録、音声アシスタントなど)に適しています。関連する論文の結果は以下の通りである。効率的な音声認識のための線形スケーラブルな注意を備えた高速コンフォーマー”。
2. 操作手順
1. コンテナを起動します
「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. 使用デモ
Safari ブラウザを使用すると、オーディオが直接再生されない場合があります。
このチュートリアルでは、音声ファイルのアップロードに加えて、音声入力もサポートしています。

認識結果はCSVファイルとして保存できます

3. 議論
🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

プロジェクトサポート
Githubユーザーに感謝 スーパーヤン このチュートリアルの展開。