GLM-4.1V-Thinking: Auf dem Weg zu vielseitigem multimodalem Reasoning mit skalierbarem Reinforcement Learning

Wir präsentieren GLM-4.1V-Thinking, ein visuell-sprachliches Modell (VLM), das entwickelt wurde, um die allgemeine multimodale Schlussfolgerung zu verbessern. In diesem Bericht teilen wir unsere wichtigsten Erkenntnisse bei der Entwicklung des schlußfolgerungsorientierten Trainingsrahmens mit. Zunächst entwickeln wir ein leistungsfähiges visuelles Grundmodell durch groß angelegtes Vortraining, das laut unserer Einschätzung die obere Leistungsgrenze für das endgültige Ergebnis setzt. Das Curriculum Sampling-basierte Verstärkungslernen (RLCS) entfaltet dann das volle Potenzial des Modells und führt zu einer umfassenden Leistungssteigerung in einer Vielzahl von Aufgaben, darunter dem Lösen von STEM-Problemen, Videoverstehen, Inhaltserkennung, Programmierung, Ankerung, GUI-basierte Agenten und dem Verstehen langer Dokumente sowie anderen Bereichen. Um Forschungen in diesem Bereich zu fördern, stellen wir GLM-4.1V-9B-Thinking als Open Source zur Verfügung, das unter vergleichbaren Modellen Spitzenleistungen erzielt. In einer umfassenden Bewertung anhand von 28 öffentlichen Benchmarks übertrifft unser Modell Qwen2.5-VL-7B nahezu in allen Aufgaben und erreicht vergleichbare oder sogar bessere Ergebnisse auf 18 Benchmarks im Vergleich zum deutlich größeren Qwen2.5-VL-72B. Besonders auffällig ist auch die wettbewerbsfähige oder überlegene Leistung von GLM-4.1V-9B-Thinking im Vergleich zu geschlossenen Quellenmodellen wie GPT-4o bei anspruchsvollen Aufgaben wie dem Verstehen langer Dokumente und STEM-Schlussfolgerungen, was seine starken Fähigkeiten weiter unterstreicht. Der Code, die Modelle und weitere Informationen werden unter https://github.com/THUDM/GLM-4.1V-Thinking veröffentlicht.