智谱开源GLM-4.5V:1060亿参数多模态模型刷新41项SOTA,赋能视觉推理新范式
지능형 AI 기업 지그램 AI는 새로운 오픈소스 시각-언어 모델 GLM-4.5V를 공개하며, 41개의 다중모달 기준 테스트에서 동급 오픈소스 모델 중 최고 성능(SOTA)을 기록했다. 이 모델은 1,060억 총 파라미터, 120억 활성 파라미터를 갖추고 있으며, 기존 GLM-4.5-Air 기반으로 개발됐고, GLM-4.1V-Thinking의 기술적 방향을 이어받았다. 기술적으로는 시각 인코더, MLP 어댑터, 언어 디코더로 구성되며, 3D 회전 위치 인코딩(3D-RoPE)을 도입해 3차원 공간 관계 인식 능력을 강화했다. 또한 64K 토큰의 긴 입력을 지원하고, 3D 컨볼루션을 활용해 영상 처리 효율을 높였다. 모델은 세 단계의 훈련 최적화를 거쳤다. 먼저 대규모 다중모달 텍스트-이미지 데이터와 긴 문맥을 활용한 사전 훈련으로 기초 이해력을 강화했고, 이후 감독 미세조정(SFT) 단계에서 ‘사고 체인’ 형식의 훈련 데이터를 도입해 인과적 추론 능력을 키웠다. 마지막으로 강화학습(RL) 단계에서는 가시화 가능한 보상 기반 강화학습(RLVR)과 인간 피드백 기반 강화학습(RLHF)을 결합해 과학·기술·공학·수학(STEM) 문제 해결, 다중모달 위치 추정, 에이전트 작업 등에서 뛰어난 성능을 발휘하도록 훈련했다. 실제 성능은 다각도에서 입증됐다. 이미지 분석에서는 물체 인식과 좌표 추출이 가능하며, 심지어 식생, 건축 양식, 기후 흔적 등을 분석해 촬영 장소와 위도·경도를 추론할 수 있다. ‘그림 찾기’ 게임에서 16시간 내 99%의 인간 플레이어를 제치고, 7일 만에 전 세계 66위에 진입했다. 복잡한 문서 처리도 가능해, 수십 페이지에 달하는 그래프와 텍스트가 포함된 문서를 인간처럼 시각적으로 분석해 요약, 번역, 정보 추출을 정확히 수행한다. 웹 개발 측면에서는 웹 스크린샷이나 동영상을 분석해 HTML, CSS, JavaScript 코드를 생성하는 ‘프론트엔드 복제’ 기능을 제공하며, 구글 학술 검색 홈페이지를 성공적으로 재현했다. GUI 에이전트 기능을 통해 화면 인식, 아이콘 탐지, 대화형 작업 수행이 가능해, 데스크톱 환경을 자동으로 조작하는 스마트 에이전트 개발 기반을 마련했다. 지그램은 이를 활용한 데스크톱 보조 앱도 함께 공개했으며, 실시간 스크린샷 및 녹화를 통해 다양한 시각적 작업을 처리한다. GLM-4.5V는 GitHub, Hugging Face, 모다 커뮤니티에서 MIT 라이선스로 공개되어 상용 사용도 가능하다.