Voxtral新モデル登場:超低遅延リアルタイム変換と高精度バッチ処理を実現
Voxtralは、音声を音の速度で正確に文字起こしする次世代音声認識モデル「Voxtral Transcribe 2」を発表した。この新シリーズは、バッチ処理向けの「Voxtral Mini Transcribe V2」と、リアルタイム対応の「Voxtral Realtime」の2モデルで構成される。どちらも高い音声認識精度、話者分離(ディアライゼーション)、低遅延を実現しており、多言語対応も強みだ。 Voxtral Realtimeは、音声を到着するたびにストリーミングで処理する独自アーキテクチャを採用。遅延を200ミリ秒未満まで調整可能で、ライブ通話や音声アシスタントなど、低遅延が求められる用途に最適。FLEURSベンチマークでは、2.4秒の遅延でバッチモデルと同等の精度を達成。480ミリ秒の遅延でも誤字率は1~2%に収まり、ほぼオフライン品質の認識が可能。13言語(英語、中国語、ヒンディ語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)に対応。40億パラメータの軽量設計でエッジデバイスでも動作し、プライバシー保護に適している。モデル重みはApache 2.0ライセンスでHugging Faceに公開。 Voxtral Mini Transcribe V2は、バッチ処理で高い精度と効率を実現。FLEURSで平均4%の誤字率を達成し、GPT-4o miniやGemini 2.5 Flash、Assembly Universalなどと比較して精度で上回る。処理速度はElevenLabsのScribe v2の約3倍で、コストは1/5。1分あたり0.003ドルの低価格で、業界最高の価格性能を実現。 企業向け機能も充実。話者分離により、会議やインタビューの音声を話者ごとに分けて出力。文脈バイアス機能で名前や専門用語を正確に認識可能。単語レベルのタイムスタンプで字幕生成や音声検索にも対応。ノイズ環境下でも安定した精度を維持し、最大3時間の音声ファイルを1回のリクエストで処理可能。 さらに、Mistral Studio内に「オーディオプレイグラウンド」をリリース。最大1GBの音声ファイル(MP3、WAV、M4A、FLAC、OGG)をアップロードし、即座にTranscribe 2を試せる。ディアライゼーションや文脈バイアスの設定も可能。 両モデルはGDPR・HIPAA準拠のオンプレミスやプライベートクラウド対応。Voxtral Mini Transcribe V2はAPIで即時利用可能。Voxtral RealtimeはAPI(1分0.006ドル)とオープンウェイトの両方で提供。開発者向けに技術ドキュメントも公開。Voxtralは世界トップクラスの音声AI開発チームとして、次世代音声アプリケーションの基盤を提供している。
