HyperAI超神経

NVIDIAのオープンソース音声認識モデルParaKeet-tdt-0.6b-v2は、1時間の音声をわずか1秒で書き起こし、ピチャイ・ゲのスピーチを正確に識別できる。

特色图像

インテリジェントな顧客サービスでユーザーの意図をリアルタイムで理解する場合でも、議事録、インタビュー編集、字幕生成などのシナリオでさまざまな話し方やアクセントの音声を認識する場合でも、継続的にアップグレードされる使用ニーズにより、音声認識テクノロジに対する要件はより厳しくなっています。たとえば、認識速度、使用コスト、ノイズ環境での精度と安定性などです。

上記の課題に直面して、NVIDIA は最近、音声認識モデル ParaKeet-tdt-0.6b-v2 をオープンソース化しました。FastConformer アーキテクチャと NVIDIA が独自に開発した TDT (TransducerDecoderTransformer) テクノロジーをベースとし、極めて高い推論効率を実現します。60 分のオーディオ コンテンツを処理するのにかかる時間はわずか 1 秒です。あらゆる主流のクローズドソース モデルを超えています。さらに、このモデルは、高精度で低遅延の英語音声文字変換タスクに重点を置いており、リアルタイムの英語音声テキスト変換シナリオに適しており、言語間のコミュニケーションが容易になり、会議記録がスムーズになります。

現在のところ、HyperAI の公式サイトの「チュートリアル」セクションで、「ParaKeet-tdt-0.6b-v2 音声認識」デモがリリースされました。ワンクリック展開チュートリアルを体験するには、以下のリンクをクリックしてください。

チュートリアルのリンク:

https://go.hyper.ai/SFu38

デモの実行

1. hyper.ai ホームページにアクセス後、「チュートリアル」ページを選択し、「ParaKeet-tdt-0.6b-v2 音声認識」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択します。 OpenBayes プラットフォームは 4 つの課金方法を提供します。ニーズに応じて、「従量制」または「日次/週次/月次」を選択できます。 「続行」をクリックします。新規ユーザーは、以下の招待リンクを使用して登録すると、4 時間の RTX 4090 + 5 時間の CPU フリー時間を獲得できます。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースが割り当てられるのを待ちます。最初のクローン作成プロセスには約 2 分かかります。ステータスが「実行中」に変わったら、「API アドレス」の横にあるジャンプ矢印をクリックしてデモ ページに移動します。 APIアドレスアクセス機能を使用する前に、ユーザーは実名認証を完了する必要がありますのでご注意ください。

効果実証

「音声ファイルのアップロード」で音声ファイルをアップロードし、「アップロードしたファイルの文字起こし」をクリックして認識させます。ここで、Google I/O 基調講演の音声クリップをアップロードしたところ、モデルがそれを迅速かつ正確に認識しました。

音声認識の内容は以下のとおりです。

みなさんこんにちは、おはようございます。

Google.io へようこそ。

今日は双子座の季節の始まりだと知りました。

何が大したことなのかよく分からない。

Google では毎日が双子座の季節です。

数週間前、ジェミニはポケモン ブルーをクリアしました。

さらに、ParaKeet-tdt-0.6b-v2 は音声入力もサポートしています。 「マイク」をクリックし、「録音」をクリックし、録音が完了したら「アップロードしたファイルの文字起こし」をクリックして認識します。

以上が今回HyperAIがおすすめする実践チュートリアルです。ぜひ皆様も体験してみてください!

チュートリアルのリンク:

https://go.hyper.ai/SFu38