オンラインチュートリアル | ミストラルAI初のオープンソース音声モデルVoxtral、24B、3Bバージョンは、マルチシナリオ音声の深い理解を考慮しています

1年前

人間にとって最も自然なインタラクション手段である音声は、徐々に人間とコンピュータのインタラクションの中核シナリオになりつつあります。音声インタラクションの普及に伴い、オーディオモデルも需要に応じて絶えず革新と最適化を続けています。しかし、急速な発展は市場供給の二極化を伴います。低コストのオープンソースモデルは、高いエラー率や意味理解の弱さといった問題を抱えやすく、一方、高コストのクローズドソースモデルは通常、高価で導入上の制限があります。どちらも多様なニーズを満たすことが困難です。

これに基づいて、Mistral AI は最近、オープンソースの高性能と低コストで音声インテリジェンス市場の問題点に焦点を当てた初の高度なオーディオモデルである Voxtral を正式にリリースしました。このモデルには24Bと3Bの2つのバージョンがあります。前者はエンタープライズレベルの大規模導入に適しており、後者は個人向けの軽量導入の敷居を下げます。機能面では、優れた音声書き起こしと深い理解能力を基盤に、Voxtralは多言語対応、長文コンテキスト処理、内蔵の質問応答機能と要約機能を備え、その性能は複数のベンチマークにおいて既存のオープンソース音声モデルを上回っています。同時に、低コストで様々なシナリオに広く利用されており、音声インタラクションの普及に貢献しています。

Voxtral は、テクノロジーを活用して、音声インタラクションモデルを「使える」から「使いやすい」へと質的に変化させることを推進しています。これは、高性能オーディオモデルに対する市場の需要を満たすだけでなく、音声対話のアプリケーションシナリオを拡大し、自然な対話のインテリジェントなエコシステムの基盤を真に構築します。

「Voxtral-Small-3B/24B-2507音声理解モデルデモ」HyperAI の公式サイト (hyper.ai) の「チュートリアル」セクションがオンラインになりました。「より正確に聞き、より深く理解する」ことができ、高度なオーディオモデルの新たな進歩を目の当たりにできる、音声インタラクションの没入型体験を始めましょう。

チュートリアルのリンク:

* Voxtral-Mini-3B-2507音声理解モデルのデモ:

https://go.hyper.ai/5Q9uT

* Voxtral-Small-24B-2507音声理解モデルのデモ:

https://go.hyper.ai/p4X0s

筆者は、『F1：ワイルド・レース』の主演俳優ブラッド・ピットと、ポップマート創業者のワン・ニン氏がCCTVでインタビューを受けた際のインタビュー映像を用いてテストを行いました。生成された結果は非常に理想的で、Voxtralの強力な機能を実証しました。

デモの実行

1. hyper.ai ホームページにアクセス後、「チュートリアル」ページを選択し、「Voxtral-Mini-3B-2507 音声理解モデルデモ」を選択して、「このチュートリアルをオンラインで実行」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

3. 「NVIDIA GeForce RTX 4090」と「PyTorch」のイメージを選択し、ニーズに合わせて「Pay as you go」または「Daily/Weekly/Monthly Package」を選択し、「Continue」をクリックします。新規ユーザーは、以下の招待リンクから登録すると、RTX 4090 4時間分とCPUフリータイム5時間分がもらえます！

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. リソースの割り当てが完了するまでお待ちください。最初のクローン作成には約3分かかります。ステータスが「実行中」に変わったら、「APIアドレス」の横にあるジャンプ矢印をクリックしてデモページに移動します。APIアドレスアクセス機能を使用する前に、実名認証を完了する必要がありますのでご注意ください。

効果実証

「音声文字起こし」テスト機能を選択し、音声クリップをアップロードして言語を選択し、「音声文字起こし」をクリックします。しばらくすると結果が生成されます。

「オーディオ理解」テスト機能を選択し、オーディオクリップをアップロードして質問を入力し、「クエリの送信」をクリックすると、しばらくすると結果が生成されます。

さらに、Voxtralが提供する24Bバージョンは、エンタープライズレベルの大規模導入に適しています。HyperAI公式サイト（hyper.ai）の「チュートリアル」セクションで公開されており、ユーザーは必要に応じて体験できます。

チュートリアルのリンク:

* Voxtral-Mini-3B-2507音声理解モデルのデモ:

https://go.hyper.ai/5Q9uT

* Voxtral-Small-24B-2507音声理解モデルのデモ:

https://go.hyper.ai/p4X0s

オンラインチュートリアル | ミストラルAI初のオープンソース音声モデルVoxtral、24B、3Bバージョンは、マルチシナリオ音声の深い理解を考慮しています

1年前

情報

機械学習

ディープラーニング

チュートリアルのリンク:

* Voxtral-Mini-3B-2507音声理解モデルのデモ:

https://go.hyper.ai/5Q9uT

* Voxtral-Small-24B-2507音声理解モデルのデモ:

https://go.hyper.ai/p4X0s

デモの実行

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。

HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):

https://openbayes.com/console/signup?r=Ada0322_NR0n

効果実証

チュートリアルのリンク:

* Voxtral-Mini-3B-2507音声理解モデルのデモ:

https://go.hyper.ai/5Q9uT

* Voxtral-Small-24B-2507音声理解モデルのデモ:

https://go.hyper.ai/p4X0s

Command Palette

オンラインチュートリアル | ミストラルAI初のオープンソース音声モデルVoxtral、24B、3Bバージョンは、マルチシナリオ音声の深い理解を考慮しています

デモの実行

効果実証

Command Palette

オンラインチュートリアル | ミストラルAI初のオープンソース音声モデルVoxtral、24B、3Bバージョンは、マルチシナリオ音声の深い理解を考慮しています

デモの実行

効果実証

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

Command Palette

オンラインチュートリアル | ミストラルAI初のオープンソース音声モデルVoxtral、24B、3Bバージョンは、マルチシナリオ音声の深い理解を考慮しています

デモの実行

効果実証

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

関連 ニュース

わずか3秒の音声で「ナレーションの自由」を実現：Mistralのオープンソース音声モデルVoxtral-4B-TTS-2603。データ品質の新たなベンチマークを設定：Sutra 10B事前学習。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

関連ニュース

関連ニュース

関連ニュース

関連ニュース