11 天前

OVMR:基于多模态参考的开放词汇识别

Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian
OVMR:基于多模态参考的开放词汇识别
摘要

开放词汇识别的挑战在于,模型在应用时对新类别毫无先验信息。现有方法尝试通过不同途径将类别线索嵌入模型,例如采用少样本微调,或向视觉-语言模型提供类别名称、文本描述等。然而,微调过程耗时且会损害模型的泛化能力;而文本描述可能存在歧义,难以准确刻画视觉细节。本文从新视角出发,通过融合文本描述与样本图像构成的多模态线索来应对开放词汇识别任务。所提出的OVMR方法引入两项创新组件,以实现更鲁棒的类别线索嵌入。首先,通过动态地将图像样本补充至文本描述中,构建多模态分类器;随后,引入基于偏好的优化模块,融合单模态与多模态分类器,旨在缓解低质量样本图像或文本描述带来的负面影响。所提出的OVMR为即插即用模块,即使在使用从互联网随机爬取的样本图像时也能表现良好。大量实验验证了OVMR的优越性能,其在多种场景与设置下均显著优于现有方法。代码已公开,访问地址为:https://github.com/Zehong-Ma/OVMR。

OVMR:基于多模态参考的开放词汇识别 | 最新论文 | HyperAI超神经