2 个月前

从数据视角高效多模态学习

Muyang He; Yexin Liu; Boya Wu; Jianhao Yuan; Yueze Wang; Tiejun Huang; Bo Zhao
从数据视角高效多模态学习
摘要

多模态大语言模型(MLLMs)在通用视觉理解和推理任务中展示了显著的能力。然而,由于训练和推理过程中巨大的计算成本,其部署受到了限制,这使得更广泛的研究和用户群体难以获得这些模型。一个直接的解决方案是利用较小的预训练视觉和语言模型,但这不可避免地会导致性能显著下降。在本文中,我们展示了通过高质量训练数据训练出一个更小但性能更好的MLLM的可能性。具体而言,我们引入了Bunny,这是一个轻量级的MLLM系列,具有灵活的视觉和语言骨干网络,可以从精选的训练数据中高效进行多模态学习。实验结果表明,我们的Bunny-4B/8B在多个基准测试中优于当前最先进的大型MLLMs。我们希望这项工作能够为社区提供一个干净且灵活的开源工具,以促进进一步的研究和开发。代码、模型和数据可以在https://github.com/BAAI-DCAI/Bunny 获取。

从数据视角高效多模态学习 | 最新论文 | HyperAI超神经