ミストラル、初のオープンソース音声モデル「Voxtral」をリリース——企業向け低コスト音声理解ソリューション提供
Mistral、フランスのAIスタートアップが初のオープンソース音声モデル「Voxtral」をリリース AIシステムの能力向上とともに、音声通信が人間と機械とのコミュニケーションの主流となりつつあります。フランスのAIスタートアップ、Mistralはこの流れに加わり、開放型の高機能音聲モデル『Voxtral』ファミリーをリリースしたことを9月26日(火)に発表しました。本モデルは、開発者が低コストで高機能な音声認識を手軽に利用できるように設計されています。 従来、開発者は無料や安価なオープンソース音声システムか、高費用かつ制御の難しい閉鎖的な企業向けシステムのいずれかを選択しなければなりませんでしたが、Voxtralはその両方の問題点を解決します。Mistralは、Voxtralが「比較可能なソリューションよりも半額以下の価格」であり、ビジネス向けの手頃な代替選択肢を提供すると主張しています。 Voxtralは、最大30分の音声を転写でき、LLMベースの最新版Voxtral Small 3.1では40分の理解が可能です。これにより、音声コンテンツを質問したり、要約を作成したり、API呼び出しや関数実行などのリアルタイムアクションを実現することができます。さらに、英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語など、複数言語への対応も特徴です。 Voxtralには、240億パラメーターを持つVoxtral Smallと、30億パラメーターを持つLocalおよびEdge展開向けのVoxtral Miniの2つのバージョンがあります。特にVoxtral Mini Transcribeは、転写用途に最適化された低価格版で、OpenAI Whisperを下回る価格で同等以上の性能を発揮すると謳われています。 ユーザーはHugging Faceから無料でAPIをダウンロードしたり、MistralのチャットボットLe Chatでモデルを試したりできます。アプリケーションへのAPI統合料金は1分あたり0.001ドルからとなっています。 Voxtralの公開は、一ヶ月前に問題解決ステップバイステップに対応した推論モデル『Magistral』ファミリーをリリースしたことを続く展開の一環です。Mistralは欧州のトップAI企業の一つで、オープンソースAIモデルの推進で知られています。先月には、アブダビのMGX基金から最大10億ドルの資金調達に向けた交渉中であることがTechCrunchに報告されています。