HyperAI超神经

FUSION: 视觉-语言表示的全面融合以实现深度跨模态理解

Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
发布日期: 4/16/2025
FUSION: 视觉-语言表示的全面融合以实现深度跨模态理解
摘要

我们介绍了FUSION,一种具有完全视觉-语言对齐和整合范式的多模态大语言模型(MLLMs)家族。与现有方法主要依赖于大语言模型解码阶段的后期模态交互不同,我们的方法在整个处理流程中实现了深度、动态的整合。为此,我们提出了文本引导的统一视觉编码(Text-Guided Unified Vision Encoding),在视觉编码过程中融入文本信息,以实现像素级整合。我们进一步设计了上下文感知的递归对齐解码(Context-Aware Recursive Alignment Decoding),在解码过程中根据文本上下文递归聚合视觉特征,从而实现细粒度、问题级别的语义整合。为了指导特征映射并缓解模态差异,我们开发了双监督语义映射损失(Dual-Supervised Semantic Mapping Loss)。此外,我们通过一种新的数据合成方法构建了一个合成语言驱动的问答(QA)数据集,优先选择高质量的问答对来优化文本引导的特征整合。基于这些基础,我们在两个规模上训练了FUSION——3B和8B——并证明了我们的全模态整合方法在仅使用630个视觉标记的情况下显著优于现有方法。值得注意的是,FUSION 3B在大多数基准测试中超过了Cambrian-1 8B和Florence-VL 8B。即使在仅使用300个视觉标记的情况下,FUSION 3B仍然优于Cambrian-1 8B。我们的消融研究表明,在相同配置且不使用动态分辨率的情况下,FUSION在超过一半的基准测试中优于LLaVA-NeXT,突显了我们方法的有效性。我们已开源代码、模型权重和数据集。https://github.com/starriver030515/FUSION