Command Palette
Search for a command to run...
HyperLLaVA:面向多模态大语言模型的动态视觉与语言专家调优
HyperLLaVA:面向多模态大语言模型的动态视觉与语言专家调优
摘要
近期研究进展表明,扩大多模态大语言模型(Multimodal Large Language Models, MLLMs)的规模能够有效提升其在下游多模态任务中的性能。当前主流的MLLM范式,如LLaVA,通过一个静态的视觉-语言映射器(vision-language mapper)将视觉特征转换为类文本令牌(text-like tokens),从而使静态的大语言模型(LLM)通过视觉指令微调(visual instruction tuning)获得理解视觉信息的能力。尽管该方法展现出良好前景,但其采用静态参数共享的微调策略(即模型参数在训练后固定不变)在面对不同下游多模态任务时,往往限制了模型的适应性与性能表现。针对这一局限,本文提出HyperLLaVA,该方法引入对投影器(projector)与大语言模型参数的自适应微调机制,并结合动态视觉专家与语言专家,分别实现对视觉与语言模态的动态建模。这些专家模块基于HyperNetworks架构构建,能够根据视觉输入与语言上下文动态生成参数偏移量(parameter shifts),从而在两阶段训练中实现投影器与LLM的动态建模能力。实验结果表明,HyperLLaVA在多个主流MLLM基准测试中显著优于LLaVA,涵盖MME、MMBench、SEED-Bench以及LLaVA-Bench等。~\footnote{本项目开源代码可访问:https://github.com/DCDmllm/HyperLLaVA}