オンラインチュートリアル | ミストラルAI初のオープンソース音声モデルVoxtral、24B、3Bバージョンは、マルチシナリオ音声の深い理解を考慮しています

人間にとって最も自然なインタラクション手段である音声は、徐々に人間とコンピュータのインタラクションの中核シナリオになりつつあります。音声インタラクションの普及に伴い、オーディオモデルも需要に応じて絶えず革新と最適化を続けています。しかし、急速な発展は市場供給の二極化を伴います。低コストのオープンソースモデルは、高いエラー率や意味理解の弱さといった問題を抱えやすく、一方、高コストのクローズドソースモデルは通常、高価で導入上の制限があります。どちらも多様なニーズを満たすことが困難です。
これに基づいて、Mistral AI は最近、オープンソースの高性能と低コストで音声インテリジェンス市場の問題点に焦点を当てた初の高度なオーディオ モデルである Voxtral を正式にリリースしました。このモデルには24Bと3Bの2つのバージョンがあります。前者はエンタープライズレベルの大規模導入に適しており、後者は個人向けの軽量導入の敷居を下げます。機能面では、優れた音声書き起こしと深い理解能力を基盤に、Voxtralは多言語対応、長文コンテキスト処理、内蔵の質問応答機能と要約機能を備え、その性能は複数のベンチマークにおいて既存のオープンソース音声モデルを上回っています。同時に、低コストで様々なシナリオに広く利用されており、音声インタラクションの普及に貢献しています。
Voxtral は、テクノロジーを活用して、音声インタラクション モデルを「使える」から「使いやすい」へと質的に変化させることを推進しています。これは、高性能オーディオ モデルに対する市場の需要を満たすだけでなく、音声対話のアプリケーション シナリオを拡大し、自然な対話のインテリジェントなエコシステムの基盤を真に構築します。
「Voxtral-Small-3B/24B-2507音声理解モデルデモ」HyperAI の公式サイト (hyper.ai) の「チュートリアル」セクションがオンラインになりました。「より正確に聞き、より深く理解する」ことができ、高度なオーディオ モデルの新たな進歩を目の当たりにできる、音声インタラクションの没入型体験を始めましょう。
チュートリアルのリンク:
* Voxtral-Mini-3B-2507音声理解モデルのデモ:
* Voxtral-Small-24B-2507音声理解モデルのデモ:
筆者は、『F1:ワイルド・レース』の主演俳優ブラッド・ピットと、ポップマート創業者のワン・ニン氏がCCTVでインタビューを受けた際のインタビュー映像を用いてテストを行いました。生成された結果は非常に理想的で、Voxtralの強力な機能を実証しました。


デモの実行
1. hyper.ai ホームページにアクセス後、「チュートリアル」ページを選択し、「Voxtral-Mini-3B-2507 音声理解モデルデモ」を選択して、「このチュートリアルをオンラインで実行」をクリックします。


2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択し、ニーズに合わせて「Pay as you go」または「Daily/Weekly/Monthly Package」を選択し、「Continue」をクリックします。新規ユーザーは、以下の招待リンクから登録すると、RTX 4090 4時間分とCPUフリータイム5時間分がもらえます!
HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. リソースの割り当てが完了するまでお待ちください。最初のクローン作成には約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。



効果実証
筆者は、『F1:ワイルド・レース』の主演俳優ブラッド・ピットと、ポップマート創業者のワン・ニン氏がCCTVでインタビューを受けた際のインタビュー映像を用いてテストを行いました。生成された結果は非常に理想的で、Voxtralの強力な機能を実証しました。
「音声文字起こし」テスト機能を選択し、音声クリップをアップロードして言語を選択し、「音声文字起こし」をクリックします。しばらくすると結果が生成されます。


「オーディオ理解」テスト機能を選択し、オーディオ クリップをアップロードして質問を入力し、「クエリの送信」をクリックすると、しばらくすると結果が生成されます。


さらに、Voxtralが提供する24Bバージョンは、エンタープライズレベルの大規模導入に適しています。HyperAI公式サイト(hyper.ai)の「チュートリアル」セクションで公開されており、ユーザーは必要に応じて体験できます。
チュートリアルのリンク:
* Voxtral-Mini-3B-2507音声理解モデルのデモ:
* Voxtral-Small-24B-2507音声理解モデルのデモ: