11 天前
ConvLLaVA:用于大型多模态模型的分层主干网络作为视觉编码器
Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng

摘要
高分辨率大型多模态模型(High-resolution Large Multimodal Models, LMMs)面临视觉令牌(visual tokens)过多以及视觉计算复杂度呈二次增长的挑战。现有的高分辨率LMM虽在一定程度上缓解了二次复杂度问题,但仍会产生大量冗余的视觉令牌。而视觉令牌的冗余正是导致计算开销显著增加的关键原因。为缓解这一问题,我们提出ConvLLaVA,该模型采用具有层次化结构的ConvNeXt作为视觉编码器,替代传统的视觉Transformer(Vision Transformer, ViT)。ConvLLaVA能够将高分辨率图像压缩为信息密集的视觉特征,有效抑制冗余视觉令牌的生成。为进一步提升ConvLLaVA的性能,我们提出两项关键优化:首先,由于预训练的低分辨率ConvNeXt在直接应用于高分辨率输入时表现不佳,我们对其进行了适配性更新,以弥合分辨率差异带来的性能差距;其次,鉴于ConvNeXt原始的压缩比难以满足极高分辨率输入的需求,我们引入一个连续的压缩阶段,进一步压缩视觉令牌,从而显著降低冗余。上述优化使得ConvLLaVA能够支持1536×1536分辨率的输入,仅生成576个视觉令牌,并具备处理任意长宽比图像的能力。实验结果表明,该方法在主流基准测试上达到了与当前最先进模型相当的性能水平。ConvLLaVA模型系列已开源,可访问GitHub页面获取:https://github.com/alibaba/conv-llava。