17 天前
基于上下文描述的图像检索
Benno Krojer, Vaibhav Adlakha, Vibhav Vineet, Yash Goyal, Edoardo Ponti, Siva Reddy

摘要
能够整合上下文信息,包括感知线索和时间线索,对于赋予语言表达以语义基础起着关键作用。为衡量当前视觉-语言模型在掌握这一能力方面的程度,我们提出了一项新的多模态挑战任务——基于上下文描述的图像检索(Image Retrieval from Contextual Descriptions,简称 ImageCoDe)。在该任务中,模型需从一组10个差异极小的候选图像中,根据一段上下文描述准确检索出目标图像。由于每段描述仅包含有助于区分图像的关键细节,因此描述在句法结构和语篇层面往往较为复杂,且要求模型进行语用推理。图像数据来源于静态图片和视频帧。我们在 ImageCoDe 上对多种前沿模型进行了基准测试,涵盖交叉编码器(如 ViLBERT)和双编码器(如 CLIP)两类架构。实验结果表明,现有模型与人类表现之间存在显著差距:最佳模型在视频帧上的准确率仅为20.9,静态图片上为59.4,而人类表现则达到90.8。此外,我们还探索了若干新模型变体,这些模型在表征中更有效地融合了视觉与时间上下文信息,取得了有限的性能提升。我们期望 ImageCoDe 能够推动具身语言理解的研究进展,促使模型更加关注细微的视觉差异。