16 天前

指令引导的视觉掩蔽

Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan
指令引导的视觉掩蔽
摘要

指令遵循在当代大语言模型(LLM)中至关重要。然而,当这一能力扩展至多模态场景时,常面临文本指令与图像中目标局部区域之间语义错位的问题。为实现更精准、更细致的多模态指令遵循,我们提出一种名为指令引导的视觉掩码(Instruction-guided Visual Masking, IVM)的新颖通用视觉定位模型。该模型可兼容多种多模态系统,如视觉语言模型(LMM)和机器人控制模型。IVM通过为与指令无关的图像区域生成视觉掩码,使增强后的多模态模型能够更有效地聚焦于任务相关的图像区域,从而更好地对齐复杂指令。具体而言,我们设计了一套视觉掩码数据生成流水线,并构建了一个包含100万张图像-指令对的IVM-Mix-1M数据集。此外,我们提出一种新型学习策略——判别器加权监督学习(Discriminator Weighted Supervised Learning, DWSL),用于优先训练高质量数据样本,提升模型学习效率与泛化能力。在通用多模态任务(如视觉问答VQA和具身机器人控制)上的实验结果表明,IVM具有出色的通用性。作为即插即用的工具,IVM显著提升了多种多模态模型的性能,在多个具有挑战性的多模态基准测试中取得了新的最先进(SOTA)结果。相关代码、模型及数据集已开源,地址为:https://github.com/2toinf/IVM。

指令引导的视觉掩蔽 | 最新论文 | HyperAI超神经