2 个月前
MiniCPM-V:手机上的GPT-4V水平多模态语言模型
Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun

摘要
近期,多模态大语言模型(Multimodal Large Language Models, MLLMs)的迅猛发展从根本上重塑了人工智能研究和行业的格局,为实现下一个AI里程碑指明了一条充满希望的道路。然而,仍有许多重大挑战阻碍了MLLMs在实际应用中的普及。其中最显著的挑战来自于运行具有大量参数和广泛计算需求的MLLMs所需的巨大成本。因此,大多数MLLMs需要部署在高性能的云服务器上,这极大地限制了它们在移动设备、离线环境、能耗敏感以及隐私保护场景中的应用范围。在这项工作中,我们介绍了MiniCPM-V系列高效多模态大语言模型。通过整合最新的架构、预训练和对齐技术,最新版本的MiniCPM-Llama3-V 2.5具备以下几项显著特点:(1)卓越性能,在涵盖11个流行基准测试的综合评估OpenCompass中超越了GPT-4V-1106、Gemini Pro和Claude 3;(2)强大的光学字符识别(OCR)能力和任意宽高比下的180万像素高分辨率图像感知;(3)低幻觉率,表现出可靠的行为;(4)支持30多种语言的多语言能力;(5)能够在移动设备上高效部署。更重要的是,MiniCPM-V可以被视为一个有前景趋势的代表实例:实现可用级别(如GPT-4V)性能所需的模型规模正在迅速减小,同时终端设备的计算能力也在快速增长。这两者共同表明,在终端设备上部署GPT-4V级别的MLLMs正变得越来越可行,有望在未来不久解锁更广泛的实际AI应用场景。