HyperAIHyperAI

Command Palette

Search for a command to run...

从零训练到自适应:关于MLLMs对检测信息理解的实证洞察

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

摘要

尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在融合文本与图像模态方面展现出卓越能力,但在准确解析细节性视觉信息方面仍面临挑战。视觉检测模型在识别图像中的细粒度特征方面表现优异,这促使研究者尝试将其检测结果用于增强MLLMs的性能。一种有效的策略是将检测结果以文本形式注入模型,该方法已被证明简单且高效。然而,现有大多数研究均采用无需训练的注入方式,未充分探索自适应训练的潜力。自适应训练有望显著提升MLLMs对特定输入的理解能力,同时有效过滤无关信息。本文聚焦于一个关键问题:训练策略如何影响MLLMs对注入的文本化检测信息的理解?我们系统性地对多种代表性模型进行实验,评估无训练(training-free)、重新训练(retraining)与微调(fine-tuning)等不同策略的效果。同时,我们还考察了训练对MLLMs原有能力的影响,以及不同检测模型之间的可互换性。实验结果表明,将预训练的MLLM通过微调以融合文本化检测信息,相较无训练与重新训练方法,能取得更优性能,在10个广泛认可的基准测试中平均提升6.71%。此外,微调后的模型在更换检测模型后仍能保持性能提升,表明其对格式化文本数据的理解能力得到实质性增强。为促进后续研究,我们已开源相关代码,以支持视觉检测模型与MLLMs多模态融合策略的进一步探索,助力提升MLLMs在细粒度多模态理解方面的综合能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供