HyperAI超神経
2日前

GLM-4.1V-Thinking: スケーラブルな強化学習を用いた多様なマルチモーダル推論へのアプローチ

Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi
GLM-4.1V-Thinking: スケーラブルな強化学習を用いた多様なマルチモーダル推論へのアプローチ
要約

私たちは、汎用的なマルチモーダル理解と推論を進めるために設計されたビジョン言語モデル(VLM)であるGLM-4.1V-Thinkingを発表します。本報告書では、推論中心の学習フレームワーク開発における主要な成果を共有します。まず、大規模な事前学習を通じて、潜在能力が著しいビジョン基盤モデルを開発しました。これは最終的な性能の上限を設定すると主張されています。次に、カリキュラムサンプリングによる強化学習(RLCS)を提案し、この手法によりモデルの全潜在能力が解放され、STEM問題解決、ビデオ理解、コンテンツ認識、コーディング、グラウンド化、GUIベースのエージェント、長文理解など多様なタスクにおいて包括的な能力向上が達成されました。 私たちはオープンソースとしてGLM-4.1V-9B-Thinkingを公開しており、同規模のモデルの中でも最先端の性能を達成しています。28の公開ベンチマークでの包括的な評価において、当社のモデルはQwen2.5-VL-7Bよりもほぼすべてのタスクで優れた性能を示し、大幅に大きいQwen2.5-VL-72Bと比較しても18のベンチマークで同等またはそれ以上の性能を達成しています。特に注目に値するのは、GLM-4.1V-9B-ThinkingがGPT-4oなどのクローズドソースモデルに対して長文理解やSTEM推論などの難易度が高いタスクにおいて競合するかそれ以上の性能を示していることです。これによりその強力な能力がさらに強調されています。コード、モデルおよび詳細情報は以下のURLから公開されています: このURL。 注:「グラウンド化」は一般的には「grounding」と訳されることが多いですが、「接地」や「位置付け」などとも訳されることがあります。文脈によって適切な訳語を選択してください。