HyperAI

Voxtralは、音声を音の速度で正確に文字起こしする次世代音声認識モデル「Voxtral Transcribe 2」を発表した。この新シリーズは、バッチ処理向けの「Voxtral Mini Transcribe V2」と、リアルタイム対応の「Voxtral Realtime」の2モデルで構成される。どちらも高い音声認識精度、話者分離（ディアライゼーション）、低遅延を実現しており、多言語対応も強みだ。 Voxtral Realtimeは、音声を到着するたびにストリーミングで処理する独自アーキテクチャを採用。遅延を200ミリ秒未満まで調整可能で、ライブ通話や音声アシスタントなど、低遅延が求められる用途に最適。FLEURSベンチマークでは、2.4秒の遅延でバッチモデルと同等の精度を達成。480ミリ秒の遅延でも誤字率は1～2％に収まり、ほぼオフライン品質の認識が可能。13言語（英語、中国語、ヒンディ語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語）に対応。40億パラメータの軽量設計でエッジデバイスでも動作し、プライバシー保護に適している。モデル重みはApache 2.0ライセンスでHugging Faceに公開。 Voxtral Mini Transcribe V2は、バッチ処理で高い精度と効率を実現。FLEURSで平均4％の誤字率を達成し、GPT-4o miniやGemini 2.5 Flash、Assembly Universalなどと比較して精度で上回る。処理速度はElevenLabsのScribe v2の約3倍で、コストは1/5。1分あたり0.003ドルの低価格で、業界最高の価格性能を実現。企業向け機能も充実。話者分離により、会議やインタビューの音声を話者ごとに分けて出力。文脈バイアス機能で名前や専門用語を正確に認識可能。単語レベルのタイムスタンプで字幕生成や音声検索にも対応。ノイズ環境下でも安定した精度を維持し、最大3時間の音声ファイルを1回のリクエストで処理可能。さらに、Mistral Studio内に「オーディオプレイグラウンド」をリリース。最大1GBの音声ファイル（MP3、WAV、M4A、FLAC、OGG）をアップロードし、即座にTranscribe 2を試せる。ディアライゼーションや文脈バイアスの設定も可能。両モデルはGDPR・HIPAA準拠のオンプレミスやプライベートクラウド対応。Voxtral Mini Transcribe V2はAPIで即時利用可能。Voxtral RealtimeはAPI（1分0.006ドル）とオープンウェイトの両方で提供。開発者向けに技術ドキュメントも公開。Voxtralは世界トップクラスの音声AI開発チームとして、次世代音声アプリケーションの基盤を提供している。

関連リンク

関連リンク

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

Command Palette

Voxtral新モデル登場：超低遅延リアルタイム変換と高精度バッチ処理を実現

関連リンク

Command Palette

Voxtral新モデル登場：超低遅延リアルタイム変換と高精度バッチ処理を実現

関連リンク

Command Palette

Voxtral新モデル登場：超低遅延リアルタイム変換と高精度バッチ処理を実現

関連リンク

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする

視覚的現実を超えて：清華ワールドアリーナの新しい評価システムが具現化された世界モデルの能力ギャップを明らかにする