
摘要
视觉-语言模型(VLMs)的兴趣日益增长,这主要得益于大型语言模型和视觉变换器的改进。尽管关于这一主题的研究文献丰富,但我们观察到,有关VLM设计的关键决策往往缺乏充分的理由支持。我们认为,这些未经验证的决策阻碍了该领域的进展,因为它们使得识别哪些选择能够提升模型性能变得困难。为了解决这一问题,我们围绕预训练模型、架构选择、数据和训练方法进行了广泛的实验。我们的研究成果包括开发了一种高效的80亿参数的基础视觉-语言模型——Idefics2。Idefics2在其规模类别中,在多个多模态基准测试中达到了最先进的性能,并且其表现经常与参数量为其四倍的模型相当。我们发布了该模型(基础版、指令版和聊天版)以及为其训练创建的数据集。