GLM-4.7-Flash登場:30Bクラス最強のMoEモデルで軽量な高性能推論が可能に
zai-orgが開発したGLM-4.7-Flashは、300億パラメータのMoE(Mixture of Experts)モデルで、30Bクラスにおける最高性能を誇る軽量型AIモデルとして注目されている。このモデルは、性能と効率のバランスを重視し、ローカル環境やクラウドでの導入を容易にすることを目指している。ベンチマークテストでは、AIME、GPQA、LCB、SWE-bench Verified、τ²-Benchなどにおいて、Qwen3-30B-A3B-ThinkingやGPT-OSS-20Bと比較して優れた結果を示しており、特にコード生成や論理的推論能力に優れている。 GLM-4.7-FlashはvLLMやSGLangといった高速推論フレームワークに対応しており、4GPUのテンソル並列構成で効率的なローカルデプロイが可能。vLLMでは、MTP(Multi-Token Prediction)と推測的生成を活用し、推論速度を向上。SGLangではEAGLEアルゴリズムを採用し、より高精度な推測生成を実現。モデルの起動には、Hugging Faceのtransformersライブラリと、特定のパラメータ設定が必要で、Pythonスクリプトで簡単なチャットインタフェースを構築できる。 また、Z.ai APIプラットフォームを通じてAPIサービスも提供されており、ワンクリックで利用可能。開発者向けに、GitHubリポジトリに包括的なデプロイ手順が公開されている。研究者や開発者は、GLM-4.7-Flashの利用にあたり、arXivに掲載されたGLM-4.5に関する技術論文(2025年8月公開)を引用することを推奨されている。 GLM-4.7-Flashは、AIエージェント、推論、コード生成を得意とする「エージェント型」AIモデルとして、今後の開発と実用の基盤となる可能性を秘めている。
