HyperAIHyperAI

Command Palette

Search for a command to run...

IBM、Granite 4.1 ラージ言語モデルを発表

IBM は高品質なオープンソース大規模言語モデル「Granite 4.1」シリーズを発表しました。このモデルファミリーは、3B、8B、30B の3つのサイズの密集型(デンス)アーキテクチャで構成され、Apache 2.0 ライセンスの下で一般公開されています。特に 8B モデルは、より大規模なパラメータ数を持つ競合他社のモジュール型アーキテクチャモデル(MoE)と比較して、同等かそれ以上の性能を発揮することが確認されています。 学習プロセスには約 15 トリリオントークンを使用し、5 つの段階を踏んだ事前トレーニングパイプラインを採用しています。初期段階で汎用的な言語理解を養い、随后に数学やコードデータへ焦点を移した高品質なデータで学習を継続します。最終段階では、コンテキストウィンドウを最大 512K トークンまで拡張するトレーニングが行われました。事前トレーニング後、約 410 万件の高品質なサンプルを用いて教師あり微調整(SFT)を実施しました。この際、AI を審査役とする厳格なフィルタリングシステムを導入し、ハルシネーションや事実誤認を排除してデータ品質を徹底管理しました。 さらに、数学、コーディング、指示従順性、一般チャットなどの能力強化を目指し、多段階の強化学習パイプラインを適用しました。これにより、モデルは複雑な推論タスクやツール呼び出し能力において劇的な進化を遂げました。ベンチマークでは、8B モデルが MMLU、BBH、GSM8K などの主要タスクで、従来の 32B パラメータ規模の MoE モデルを上回るスコアを記録しています。また、長文脈処理能力やマルチリンガル対応も強化されており、英語のほかドイツ語、スペイン語、日本語など 12 ヶ国語に対応しています。 運用面でも効率性を追求しており、fp8 量子化バリアントを提供することで、推論時のメモリ使用量とディスク容量を約半分に削減しました。これにより、エントプライズ環境での低コストかつ高信頼性の導入が容易となっています。IBM は、計算リソースの規模拡大だけでなく、データ選別とトレーニングパイプラインの精密化こそが高性能モデル構築の鍵であると強調しています。Granite 4.1 は、オープンソースコミュニティにおける効率的かつ実用的な AI 基盤としての地位を確立する画期的な成果と言えます。

関連リンク

IBM、Granite 4.1 ラージ言語モデルを発表 | 人気の記事 | HyperAI超神経