2달 전

MiniCPM-V: 휴대폰에서 사용할 수 있는 GPT-4V 수준의 MLLM

Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
MiniCPM-V: 휴대폰에서 사용할 수 있는 GPT-4V 수준의 MLLM
초록

최근 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 급증은 AI 연구 및 산업의 풍경을 근본적으로 재구성하며, 다음 AI 이정표로 향하는 유망한 경로를 밝혀주었습니다. 그러나 실제 응용 분야에서 MLLMs를 실용화하는 데 큰 장애물이 여전히 남아 있습니다. 가장 주목할 만한 도전 과제는 수많은 매개변수와 광범위한 계산을 필요로 하는 MLLM의 운영 비용이 매우 크다는 점입니다. 결과적으로 대부분의 MLLMs는 고성능 클라우드 서버에 배포되어야 하며, 이는 모바일, 오프라인, 에너지 효율적, 그리고 개인 정보 보호적인 시나리오 등 다양한 응용 범위를 크게 제한합니다.본 연구에서는 엔드 디바이스에 배포 가능한 효율적인 MLLM 시리즈인 MiniCPM-V를 소개합니다. 아키텍처, 사전 학습 및 정렬 기술에서 최신 MLLM 기법들을 통합함으로써, 최신 버전인 MiniCPM-Llama3-V 2.5는 다음과 같은 몇 가지 주목할 만한 특징을 가지고 있습니다: (1) OpenCompass(11개 인기 벤치마크에 대한 포괄적인 평가)에서 GPT-4V-1106, Gemini Pro 및 Claude 3보다 우수한 성능, (2) 강력한 OCR 능력과 모든 측면비에서 1.8M 픽셀 고해상도 이미지 인식, (3) 낮은 환각률을 가진 신뢰할 수 있는 행동, (4) 30여 개 이상의 언어 지원, (5) 모바일폰에서 효율적인 배포.더욱 중요한 것은 MiniCPM-V가 유망한 추세의 대표적인 예시라는 점입니다: 사용 가능한 수준(e.g., GPT-4V)의 성능을 달성하기 위한 모델 크기가 급속히 감소하고 있으며, 동시에 엔드 디바이스의 계산 능력이 빠르게 증가하고 있습니다. 이 두 요인이 함께 작용하여 GPT-4V 수준의 MLLMs가 엔드 디바이스에 배포되는 것이 점점 더 가능해지고 있으며, 이를 통해 가까운 미래에 더욱 넓은 범위의 실제 AI 응용 분야가 열릴 것으로 전망됩니다.

MiniCPM-V: 휴대폰에서 사용할 수 있는 GPT-4V 수준의 MLLM | 최신 연구 논문 | HyperAI초신경