MiniCPM-V 4.5: 효율적인 MLLMs 구현을 위한 아키텍처, 데이터 및 훈련 레시피 개선

다중모달 대규모 언어모델(Multimodal Large Language Models, MLLMs)은 급속한 발전을 이어가며 인공지능 기술의 최전선을 담당하고 있다. 그러나 이러한 모델의 학습 및 추론 효율성은 MLLMs의 접근성과 확장성을 높이는 데 핵심적인 제약 요소로 부상하고 있다. 이를 해결하기 위해, 높은 효율성과 뛰어난 성능을 갖춘 8B 파라미터 규모의 모델인 MiniCPM-V 4.5를 제안한다. 본 연구에서는 모델 아키텍처, 데이터 전략, 학습 방법 세 가지 핵심 영역에서 혁신적인 개선을 도입하였다. 첫째, 이미지 및 영상에 대해 매우 고밀도로 인코딩할 수 있는 통합형 3D-Resampler 모델 아키텍처를 도입하였으며, 둘째, 복잡한 데이터 엔지니어링 없이 문서 지식과 텍스트 인식을 통합적으로 학습할 수 있는 새로운 학습 패러다임을 제안하였다. 셋째, 짧은 추론과 긴 추론 모두에서 뛰어난 성능을 발휘할 수 있도록 하이브리드 강화학습 전략을 도입하였다. OpenCompass 평가에서 실시한 종합적인 실험 결과에 따르면, MiniCPM-V 4.5는 GPT-4o-latest와 같은 널리 사용되는 사모델과 Qwen2.5-VL 72B와 같은 훨씬 더 큰 오픈소스 모델을 모두 상회하는 성능을 달성하였다. 특히, 뛰어난 성능을 실현하는 동시에 놀라운 효율성도 동시에 달성하였다. 예를 들어, 널리 채택된 VideoMME 벤치마크에서 MiniCPM-V 4.5는 30B 이하의 모델 중 최고 수준의 성능을 기록하였으며, Qwen2.5-VL 7B 대비 GPU 메모리 사용량은 46.7%로 줄이고, 추론 시간은 8.7%에 그쳤다.