
摘要
视觉指令微调的成功推动了大规模语言与视觉模型(LLVMs)的快速发展。遵循指令微调大规模语言模型(LLMs)的扩展规律,LLVMs的参数规模持续扩大,已达到260亿、340亿甚至800亿参数。尽管模型规模的提升带来了显著的性能增益,但也对训练与推理阶段的硬件资源提出了更高的要求。因此,迫切需要一类高效的小型化LLVM,能够在保持大型模型性能的同时,显著减小模型体积。为满足这一需求,我们提出了一种新型高效LLVM系列——Phantom,其参数规模分别为0.5B、1.8B、3.8B和7B。Phantom在有限的模型结构下,显著增强了学习能力。通过在多头自注意力(MHSA)过程中临时提升潜在隐藏维度,模型能够在不显著增加实际参数量的前提下,有效捕捉并理解更丰富的视觉-语言知识。为充分发挥该机制的优势,我们引入了Phantom优化(Phantom Optimization, PO),融合自回归监督微调(SFT)与类似直接偏好优化(DPO)的理念,能够有效强化正确回答,同时消除错误与模糊的输出。实验结果表明,Phantom在多项任务上超越了众多参数规模更大的开源与闭源LLVM,展现出卓越的性能表现,确立了其在高效LLVM领域中的领先地位。