8 个月前

摘要

尽管多模态大语言模型（Multimodal Large Language Models, MLLMs）在融合文本与图像模态方面展现出卓越能力，但在准确解析细节性视觉信息方面仍面临挑战。视觉检测模型在识别图像中的细粒度特征方面表现优异，这促使研究者尝试将其检测结果用于增强MLLMs的性能。一种有效的策略是将检测结果以文本形式注入模型，该方法已被证明简单且高效。然而，现有大多数研究均采用无需训练的注入方式，未充分探索自适应训练的潜力。自适应训练有望显著提升MLLMs对特定输入的理解能力，同时有效过滤无关信息。本文聚焦于一个关键问题：训练策略如何影响MLLMs对注入的文本化检测信息的理解？我们系统性地对多种代表性模型进行实验，评估无训练（training-free）、重新训练（retraining）与微调（fine-tuning）等不同策略的效果。同时，我们还考察了训练对MLLMs原有能力的影响，以及不同检测模型之间的可互换性。实验结果表明，将预训练的MLLM通过微调以融合文本化检测信息，相较无训练与重新训练方法，能取得更优性能，在10个广泛认可的基准测试中平均提升6.71%。此外，微调后的模型在更换检测模型后仍能保持性能提升，表明其对格式化文本数据的理解能力得到实质性增强。为促进后续研究，我们已开源相关代码，以支持视觉检测模型与MLLMs多模态融合策略的进一步探索，助力提升MLLMs在细粒度多模态理解方面的综合能力。

源 PDF