2 个月前

Omni-SMoLA:通过低秩专家的软混合提升通用多模态模型

Wu, Jialin ; Hu, Xia ; Wang, Yaqing ; Pang, Bo ; Soricut, Radu
Omni-SMoLA:通过低秩专家的软混合提升通用多模态模型
摘要

大型多模态模型(LMMs)在众多任务中表现出卓越的性能。然而,当对大量任务进行微调时,通用型LMMs往往会出现性能下降的问题。近期研究表明,专家混合(Mixture of Experts, MoE)架构对于指令微调非常有用,但对于参数量约为50-100亿(O(50-100B))的LMMs,复制和存储专家模型的巨大成本严重限制了可使用的专家数量。我们提出了一种名为Omni-SMoLA的架构,该架构采用软专家混合(Soft MoE)方法来“软”地混合多个低秩多模态专家,并且相比传统的MoE模型,不会引入大量的新参数。其核心思想是,大型模型提供了一个基础骨干网络,而不同的轻量级专家则以残差学习的方式获取特定领域的知识,这些知识可以是单模态的或跨模态的。广泛的实验表明,SMoLA方法有助于提高在广泛生成性视觉与语言任务中的通用性能,实现了新的最先进(SoTA)通用性能,通常能够匹配或超越单一专门化的LMM基线模型的性能,并且还达到了新的最先进专门化性能。

Omni-SMoLA:通过低秩专家的软混合提升通用多模态模型 | 最新论文 | HyperAI超神经