18 天前

文本到图像检索模型的性能是否能泛化到以非描述性文本作为查询的情形?

{Davide Mottin, Matteo Lissandrini, Dima Sivov, Gil Lederman, Eliezer Levy, Nima Tavassoli, Juan Manuel Rodriguez}
摘要

文本-图像检索(Text-to-Image Retrieval, T2I)是指根据关键词查询恢复所有相关图像的任务。目前广泛使用的文本-图像检索数据集,如Flickr30k、VG和MS-COCO,通常采用图像标注的标题(caption)作为查询的替代表示,例如“一个男人正在和孩子玩耍”。借助此类替代查询,当前的多模态机器学习模型(如CLIP或BLIP)表现极为出色。其主要原因在于图像标题具有较强的描述性,能够详尽刻画图像内容。然而,T2I任务中的查询并不仅限于图像-标题对中所包含的直观描述。因此,这些现有数据集难以有效评估模型在更抽象或概念性查询上的表现,例如“家庭度假”这类查询中,图像内容并非直接描述,而是隐含其中。本文在描述性查询上复现了现有T2I方法的结果,并将其推广至概念性查询的场景。为此,我们在一个面向概念性查询回答的新颖T2I基准测试集ConQA上开展了新的实验。ConQA包含43,000张图像,涵盖30个描述性查询和50个概念性查询,每个查询均配有超过100张人工标注的正样本图像。在标准评估指标下的实验结果表明,无论是大型预训练模型(如CLIP、BLIP和BLIP2),还是小型模型(如SGRAF和NAAF),在描述性查询上的表现均比在概念性查询上高出最多4倍。此外,我们还发现,当查询包含超过6个关键词时(如MS-COCO标题中的常见情况),模型的性能表现更优。