NVIDIAのオープンソース音声認識モデルParaKeet-tdt-0.6b-v2は、1時間の音声をわずか1秒で書き起こし、ピチャイ・ゲのスピーチを正確に識別できる。

1年前

インテリジェントな顧客サービスでユーザーの意図をリアルタイムで理解する場合でも、議事録、インタビュー編集、字幕生成などのシナリオでさまざまな話し方やアクセントの音声を認識する場合でも、継続的にアップグレードされる使用ニーズにより、音声認識テクノロジに対する要件はより厳しくなっています。たとえば、認識速度、使用コスト、ノイズ環境での精度と安定性などです。

上記の課題に直面して、NVIDIA は最近、音声認識モデル ParaKeet-tdt-0.6b-v2 をオープンソース化しました。FastConformer アーキテクチャと NVIDIA が独自に開発した TDT (TransducerDecoderTransformer) テクノロジーをベースとし、極めて高い推論効率を実現します。60 分のオーディオコンテンツを処理するのにかかる時間はわずか 1 秒です。あらゆる主流のクローズドソースモデルを超えています。さらに、このモデルは、高精度で低遅延の英語音声文字変換タスクに重点を置いており、リアルタイムの英語音声テキスト変換シナリオに適しており、言語間のコミュニケーションが容易になり、会議記録がスムーズになります。

現在のところ、HyperAI の公式サイトの「チュートリアル」セクションで、「ParaKeet-tdt-0.6b-v2 音声認識」デモがリリースされました。ワンクリック展開チュートリアルを体験するには、以下のリンクをクリックしてください。

チュートリアルのリンク:

https://go.hyper.ai/SFu38

デモの実行

1. hyper.ai ホームページにアクセス後、「チュートリアル」ページを選択し、「ParaKeet-tdt-0.6b-v2 音声認識」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択します。 OpenBayes プラットフォームは 4 つの課金方法を提供します。ニーズに応じて、「従量制」または「日次/週次/月次」を選択できます。「続行」をクリックします。新規ユーザーは、以下の招待リンクを使用して登録すると、4 時間の RTX 4090 + 5 時間の CPU フリー時間を獲得できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。

効果実証

「音声ファイルのアップロード」で音声ファイルをアップロードし、「アップロードしたファイルの文字起こし」をクリックして認識させます。ここで、Google I/O 基調講演の音声クリップをアップロードしたところ、モデルがそれを迅速かつ正確に認識しました。

音声認識の内容は以下のとおりです。

みなさんこんにちは、おはようございます。

Google.io へようこそ。

今日は双子座の季節の始まりだと知りました。

何が大したことなのかよく分からない。

Google では毎日が双子座の季節です。

数週間前、ジェミニはポケモンブルーをクリアしました。

さらに、ParaKeet-tdt-0.6b-v2 は音声入力もサポートしています。「マイク」をクリックし、「録音」をクリックし、録音が完了したら「アップロードしたファイルの文字起こし」をクリックして認識します。

以上が今回HyperAIがおすすめする実践チュートリアルです。ぜひ皆様も体験してみてください！

チュートリアルのリンク:

https://go.hyper.ai/SFu38

NVIDIAのオープンソース音声認識モデルParaKeet-tdt-0.6b-v2は、1時間の音声をわずか1秒で書き起こし、ピチャイ・ゲのスピーチを正確に識別できる。

1年前

チュートリアルのリンク:

https://go.hyper.ai/SFu38

デモの実行

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

効果実証

音声認識の内容は以下のとおりです。

みなさんこんにちは、おはようございます。

Google.io へようこそ。

今日は双子座の季節の始まりだと知りました。

何が大したことなのかよく分からない。

Google では毎日が双子座の季節です。

数週間前、ジェミニはポケモンブルーをクリアしました。

以上が今回HyperAIがおすすめする実践チュートリアルです。ぜひ皆様も体験してみてください！

チュートリアルのリンク:

https://go.hyper.ai/SFu38

Command Palette

NVIDIAのオープンソース音声認識モデルParaKeet-tdt-0.6b-v2は、1時間の音声をわずか1秒で書き起こし、ピチャイ・ゲのスピーチを正確に識別できる。

デモの実行

効果実証

Command Palette

NVIDIAのオープンソース音声認識モデルParaKeet-tdt-0.6b-v2は、1時間の音声をわずか1秒で書き起こし、ピチャイ・ゲのスピーチを正確に識別できる。

デモの実行

効果実証

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

Command Palette

NVIDIAのオープンソース音声認識モデルParaKeet-tdt-0.6b-v2は、1時間の音声をわずか1秒で書き起こし、ピチャイ・ゲのスピーチを正確に識別できる。

デモの実行

効果実証

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

関連ニュース

関連ニュース

関連ニュース

関連ニュース