18일 전

MiniCPM-V 4.5: 효율적인 MLLMs 구현을 위한 아키텍처, 데이터 및 훈련 레시피 개선

Tianyu Yu, Zefan Wang, Chongyi Wang, Fuwei Huang, Wenshuo Ma, Zhihui He, Tianchi Cai, Weize Chen, Yuxiang Huang, Yuanqian Zhao, Bokai Xu, Junbo Cui, Yingjing Xu, Liqing Ruan, Luoyuan Zhang, Hanyu Liu, Jingkun Tang, Hongyuan Liu, Qining Guo, Wenhao Hu, Bingxiang He, Jie Zhou, Jie Cai, Ji Qi, Zonghao Guo, Chi Chen, Guoyang Zeng, Yuxuan Li, Ganqu Cui, Ning Ding, Xu Han, Yuan Yao, Zhiyuan Liu, Maosong Sun
MiniCPM-V 4.5: 효율적인 MLLMs 구현을 위한 아키텍처, 데이터 및 훈련 레시피 개선
초록

다중모달 대규모 언어모델(Multimodal Large Language Models, MLLMs)은 급속한 발전을 이어가며 인공지능 기술의 최전선을 담당하고 있다. 그러나 이러한 모델의 학습 및 추론 효율성은 MLLMs의 접근성과 확장성을 높이는 데 핵심적인 제약 요소로 부상하고 있다. 이를 해결하기 위해, 높은 효율성과 뛰어난 성능을 갖춘 8B 파라미터 규모의 모델인 MiniCPM-V 4.5를 제안한다. 본 연구에서는 모델 아키텍처, 데이터 전략, 학습 방법 세 가지 핵심 영역에서 혁신적인 개선을 도입하였다. 첫째, 이미지 및 영상에 대해 매우 고밀도로 인코딩할 수 있는 통합형 3D-Resampler 모델 아키텍처를 도입하였으며, 둘째, 복잡한 데이터 엔지니어링 없이 문서 지식과 텍스트 인식을 통합적으로 학습할 수 있는 새로운 학습 패러다임을 제안하였다. 셋째, 짧은 추론과 긴 추론 모두에서 뛰어난 성능을 발휘할 수 있도록 하이브리드 강화학습 전략을 도입하였다. OpenCompass 평가에서 실시한 종합적인 실험 결과에 따르면, MiniCPM-V 4.5는 GPT-4o-latest와 같은 널리 사용되는 사모델과 Qwen2.5-VL 72B와 같은 훨씬 더 큰 오픈소스 모델을 모두 상회하는 성능을 달성하였다. 특히, 뛰어난 성능을 실현하는 동시에 놀라운 효율성도 동시에 달성하였다. 예를 들어, 널리 채택된 VideoMME 벤치마크에서 MiniCPM-V 4.5는 30B 이하의 모델 중 최고 수준의 성능을 기록하였으며, Qwen2.5-VL 7B 대비 GPU 메모리 사용량은 46.7%로 줄이고, 추론 시간은 8.7%에 그쳤다.