在 Discord 上讨论

10 个月前

多任务学习

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

摘要

近期研究进展表明，扩大多模态大语言模型（Multimodal Large Language Models, MLLMs）的规模能够有效提升其在下游多模态任务中的性能。当前主流的MLLM范式，如LLaVA，通过一个静态的视觉-语言映射器（vision-language mapper）将视觉特征转换为类文本令牌（text-like tokens），从而使静态的大语言模型（LLM）通过视觉指令微调（visual instruction tuning）获得理解视觉信息的能力。尽管该方法展现出良好前景，但其采用静态参数共享的微调策略（即模型参数在训练后固定不变）在面对不同下游多模态任务时，往往限制了模型的适应性与性能表现。针对这一局限，本文提出HyperLLaVA，该方法引入对投影器（projector）与大语言模型参数的自适应微调机制，并结合动态视觉专家与语言专家，分别实现对视觉与语言模态的动态建模。这些专家模块基于HyperNetworks架构构建，能够根据视觉输入与语言上下文动态生成参数偏移量（parameter shifts），从而在两阶段训练中实现投影器与LLM的动态建模能力。实验结果表明，HyperLLaVA在多个主流MLLM基准测试中显著优于LLaVA，涵盖MME、MMBench、SEED-Bench以及LLaVA-Bench等。~\footnote{本项目开源代码可访问：https://github.com/DCDmllm/HyperLLaVA}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

在 Discord 上讨论

10 个月前

多任务学习

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

摘要

近期研究进展表明，扩大多模态大语言模型（Multimodal Large Language Models, MLLMs）的规模能够有效提升其在下游多模态任务中的性能。当前主流的MLLM范式，如LLaVA，通过一个静态的视觉-语言映射器（vision-language mapper）将视觉特征转换为类文本令牌（text-like tokens），从而使静态的大语言模型（LLM）通过视觉指令微调（visual instruction tuning）获得理解视觉信息的能力。尽管该方法展现出良好前景，但其采用静态参数共享的微调策略（即模型参数在训练后固定不变）在面对不同下游多模态任务时，往往限制了模型的适应性与性能表现。针对这一局限，本文提出HyperLLaVA，该方法引入对投影器（projector）与大语言模型参数的自适应微调机制，并结合动态视觉专家与语言专家，分别实现对视觉与语言模态的动态建模。这些专家模块基于HyperNetworks架构构建，能够根据视觉输入与语言上下文动态生成参数偏移量（parameter shifts），从而在两阶段训练中实现投影器与LLM的动态建模能力。实验结果表明，HyperLLaVA在多个主流MLLM基准测试中显著优于LLaVA，涵盖MME、MMBench、SEED-Bench以及LLaVA-Bench等。~\footnote{本项目开源代码可访问：https://github.com/DCDmllm/HyperLLaVA}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供