HyperAIHyperAI

Command Palette

Search for a command to run...

IBM、エッジ向け軽量多言語音声モデル「Granite 4.0 1B Speech」を発表

IBM は最新のエッジコンピューティング向け音声言語モデル「Granite 4.0 1B Speech」を発表しました。このモデルは、リソースが限られたデバイス上のエンタープライズアプリケーション向けに設計されており、多言語の自動音声認識(ASR)と双方向音声翻訳(AST)を目的としています。前任モデルの半分以下のパラメータ数であるにもかかわらず、英語の文字起こし精度は向上し、推論速度も予測的デコーディングにより高速化されました。言語サポートは英語、フランス語、ドイツ語、スペイン語、ポルトガル語に加え、新たに日本語が加わり計 6 言語に対応しています。今回のリリースでは、ユーザーからの要望が多かった日本語 ASR 機能と、固有名称や略語の認識精度を高めるキーワードリストバイアス機能が追加されました。その性能は OpenASR リーダーボードで 1 位を獲得し、標準的な英語のベンチマークでも少数のパラメータ数で競争力のある高い精度を維持しています。評価指標である単語誤り率(WER)は、複雑なモデルよりも低く抑えられており、実用性が高いことが確認されました。すべての Granite モデル同様に、Apache 2.0 ライセンスの下で公開され、 Transformers や vLLM などの主要なフレームワークでネイティブ対応しています。IBM による評価では、このモデルは自身のパラメータ数を遥かに上回る大規模モデルと比較しても同等かそれ以上の性能を発揮しました。本格的な運用においては、リスク検出機能を強化した Granite Guardian との組み合わせを推奨しています。詳細な評価結果、アーキテクチャの詳細、トレーニングデータの概要、および使用例は公式モデルカードで公開されており、開発者はすぐに試すことができます。

関連リンク

IBM、エッジ向け軽量多言語音声モデル「Granite 4.0 1B Speech」を発表 | 人気の記事 | HyperAI超神経