Back to Headlines

智谱开源GLM-4.5V:1060亿参数多模态模型刷新41项SOTA,支持长上下文与视频理解

2日前

智譜AIは、新世代のオープンソース視覚言語モデル「GLM-4.5V」を正式にリリースした。同モデルは、1,060億の総パラメータ、120億のアクティブパラメータを備え、64Kトークンまでの多モーダル長文入力をサポート。GitHub、Hugging Face、魔搭コミュニティでMITライセンスで公開されており、商用利用も可能(GitHub: https://github.com/zai-org/GLM-V/)。 GLM-4.5Vは、同社の基盤モデルGLM-4.5-Airを基に構築され、GLM-4.1V-Thinkingの技術路線を継承。視覚エンコーダー、MLPアダプター、言語デコーダーの3層構造に加え、3次元回転位置符号化(3D-RoPE)を導入することで、空間的関係の推論能力を大幅に向上。また、3次元畳み込みを用いることで動画処理効率も向上し、高解像度・極端なアスペクト比の画像にも強固に対応。 モデルは、大規模な画像・テキスト混合語彙の事前学習、明示的な「思考チェーン」形式による教師あり微調整(SFT)、および可検証報酬強化学習(RLVR)と人間フィードバック強化学習(RLHF)を組み合わせた強化学習の3段階で最適化。これにより、STEM分野の問題解決、多モーダル位置推定、AIエージェントタスクなどにおいて、41の公開ベンチマークで同クラスのオープンソースモデルで最も高い性能(SOTA)を達成。 実用面では、複数画像の分析や、植生、建築様式、気候痕跡などの微細な手がかりから撮影場所や経緯度を推定する能力を発揮。図形探しゲームの世界大会において、16時間で99%のプレイヤーを下回り、7日後には世界ランク66位まで上昇。また、数十ページに及ぶ複雑なドキュメント(図表を含む)を、テキストと画像を統合的に理解し、正確な要約・翻訳・情報抽出が可能。さらに、ウェブページのスクリーンショットやインタラクティブな動画から、HTML、CSS、JavaScriptを生成し、UIを再現する「フロントエンド再現」機能も搭載。Google Scholarのトップページを試験的に再現した結果、外観の再現性は高いが、一部のインタラクション(例:サイドバー開閉)は未対応。 GUIエージェント機能では、デスクトップ画面の認識・操作を実現。同社は、リアルタイムスクリーンキャプチャ・録画を活用し、コード補助、動画解析、ゲーム攻略、文書理解などを統合したデスクトップアシスタントアプリも同時公開。これにより、AIが実環境のUIを理解・操作する基盤が整った。 GLM-4.5Vは、AIが「見る」だけでなく「理解し、判断し、行動する」能力を飛躍的に高める重要な一歩と評価されている。

Related Links