DiffusionGemma公開ローカルAI4倍高速化
Googleは近日、実験的なオープンソースモデル「DiffusionGemma」を正式にリリースし、大規模言語モデルの生成パラダイムにおける重要な転換点を示した。本モデルはGemma 4ファミリーの一員であり、260億パラメータを持つスパースなMixtures of Experts(MoE)アーキテクチャを採用しており、推論時にはわずか38億パラメータのみがアクティブになる。従来の自己回帰方式による単語単位の生成とは異なり、DiffusionGemmaは画像拡散の考え方をテキスト領域へ導入している。このモデルはランダムなプレースホルダーから始まり、複数回の順伝播を通じて並列処理を行い、各ステップで256トークンを直接生成することで、最終的に完全なテキストへと収束していく。 このアーキテクチャはローカル環境での推論における計算リソースのボトルネックを根本的に変革する。従来型のモデルはメモリ帯域幅の影響を受け文字単位での予測を行うためGPUの利用効率が低い傾向にあったが、DiffusionGemmaは計算負荷を一気に解放するため、NVIDIA H100では毎秒1000以上のトークンという高速な推論を実現し、RTX 5090でも700以上のトークンを達成している。全体として最大4倍のスピードアップを果たしている。双方向注意機構を活用していることから、行内の編集やコード補完、数式構造の処理、リアルタイムでの自己修正といった非線形タスクにおいて特に優れた性能を発揮する。 Googleによれば、DiffusionGemmaは明確にローカルデプロイメントおよび低同時実行性のユースケースを対象としている。並列生成により大幅な速度向上が可能だが、全体の出力品質はまだ標準的なGemma 4には劣っており、高いクエリ/秒(QPS)が求められるクラウドサービスへの適用は適さない。同モデルはApache 2.0ライセンスの下で公開されており、量子化後であれば18ギガバイトのVRAMだけで動作可能だ。また、vLLM、MLX、Hugging Face Transformersなどの主要フレームワークとの互換性を完全に確保しつつ、NVIDIA BlackwellアーキテクチャおよびNVFP4精度に対して深く最適化されている。開発者は現在、Hugging Faceより重みデータを入手して実験を開始できる状態にある。
