HyperAIHyperAI

Command Palette

Search for a command to run...

Parakeet-tdt-0.6b-v2 音声認識

Date

9ヶ月前

Size

836.41 MB

License

CC BY 4.0

Paper URL

2305.05084

1. チュートリアルの概要

GitHubスター

このチュートリアルでは、単一の RTX 4090 コンピューティング リソースを使用し、モデルは英語の音声認識のみをサポートします。

Parakeet-tdt-0.6b-v2は、6億パラメータを備えた高性能自動音声認識(ASR)モデルで、NVIDIAが2025年5月にオープンソース化しました。Parakeetシリーズの最新バージョンです。FastConformerエンコーダーアーキテクチャとTDTデコーダーをベースとしたこのモデルは、最長24分の英語音声セグメントを1回のパスで効率的に書き起こすことができます。高精度かつ低遅延の英語音声書き起こしタスクに特化しており、リアルタイムの英語音声テキスト変換シナリオ(カスタマーサービスの対話、議事録、音声アシスタントなど)に適しています。関連研究論文も公開されています。 効率的な音声認識のための線形スケーラブルな注意を備えた高速コンフォーマー

2. 操作手順

1. コンテナを起動します

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、1〜2分ほど待ってページを更新してください。

2. 使用デモ

Safari ブラウザを使用すると、オーディオが直接再生されない場合があります。

このチュートリアルでは、音声ファイルのアップロードに加えて、音声入力もサポートしています。

認識結果はCSVファイルとして保存できます

3. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

プロジェクトサポート

Githubユーザーに感謝 スーパーヤン  このチュートリアルの展開。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています