18 days ago
GenRecal:从大模型到小模型的重新校准生成视觉-语言模型
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

摘要
近期,视觉-语言模型(VLMs)的发展已经利用大型语言模型(LLMs)实现了与封闭源代码系统如GPT-4V相当的性能。然而,由于这些模型巨大的计算需求,将其部署在实际场景中,尤其是在资源受限的设备上,仍然面临诸多挑战。这激发了将大型VLM的知识提炼到更小、更高效的模型中的兴趣。然而,VLM架构的多样性成为这一过程中的一个关键难题,因为不同的VLM基于不同的LLM构建,并且使用了不同类型的标记——这些标记在词汇量、标记分割和标记索引顺序上存在差异。为了解决特定类型VLM的局限性问题,我们提出了一种名为“重校准后的生成”(GenRecal)的新颖通用蒸馏框架。GenRecal引入了一个重校准器(Recalibrator),该组件能够在异构VLM之间对齐和适应特征表示,从而实现不同类型VLM之间的有效知识迁移。通过在多个具有挑战性的基准测试上的广泛实验,我们证明了GenRecal显著提升了基线性能,并最终超越了大规模开放源代码和封闭源代码的VLM。