GLM-4.1V-Thinking: 확장 가능한 강화학습을 통한 다중 모드 추론의 다기능성 향상

우리는 일반 목적 다중 모드 추론을 발전시키기 위해 설계된 시각-언어 모델(VLM)인 GLM-4.1V-Thinking을 소개합니다. 이 보고서에서는 추론 중심 훈련 프레임워크 개발의 주요 결과를 공유합니다. 먼저, 대규모 사전 학습을 통해 상당한 잠재력을 가진 강력한 시각 기반 모델을 개발하였습니다. 이는 최종 성능의 상한선을 설정한다고 주장할 수 있습니다. 그런 다음, 커리큘럼 샘플링을 활용한 강화 학습(RLCS)이 모델의 전 잠재력을 해방하여 STEM 문제 해결, 비디오 이해, 콘텐츠 인식, 코딩, 지칭(grounding), GUI 기반 에이전트, 긴 문서 이해 등 다양한 작업에서 포괄적인 능력 향상을 이끌어냅니다. 이 분야의 연구를 지원하기 위해, 유사한 크기의 모델 중 최고 수준의 성능을 달성하는 GLM-4.1V-9B-Thinking의 소스 코드와 모델을 오픈소스로 제공합니다. 28개의 공개 벤치마크에 대한 포괄적인 평가에서 우리의 모델은 거의 모든 작업에서 Qwen2.5-VL-7B보다 우수한 성능을 보였으며, 특히 Qwen2.5-VL-72B보다도 크기가 현저히 작음에도 불구하고 18개 벤치마크에서 유사하거나 심지어 더 우수한 성능을 나타냈습니다. 또한 GLM-4.1V-9B-Thinking은 긴 문서 이해와 STEM 추론과 같은 어려운 작업에서 GPT-4o와 같은 폐쇄 소스 모델에 비해 경쟁력 있는 또는 우월한 성능을 보여주며, 그 강력한 능력을 더욱 입증하고 있습니다. 코드, 모델 및 추가 정보는 https://github.com/THUDM/GLM-4.1V-Thinking에서 확인할 수 있습니다.