CREPE:视觉-语言基础模型能否进行组合性推理?

人类视觉与自然语言的一个基本共性在于其组合性(compositional nature)。然而,尽管大规模视觉与语言预训练在性能上带来了显著提升,我们发现:在四种不同算法、基于大规模数据集训练的七种架构中,这些模型在处理组合性任务时仍存在明显困难。为得出这一结论,我们提出了一个新的组合性评估基准——CREPE(Compositionality REtrieval Evaluation),该基准基于认知科学文献中识别出的组合性的两个核心维度:系统性(systematicity)与生成性(productivity)。为评估系统性,CREPE 构建了一个包含超过 37 万张图像-文本对的测试数据集,并设计了三种“已见-未见”(seen-unseen)划分方式,分别用于检验模型在三种主流训练数据集(CC-12M、YFCC-15M 和 LAION-400M)上训练后的表现。此外,我们还为其中部分图像-文本对生成了 32.5 万、31.6 万和 30.9 万条高难度负样本描述(hard negative captions),以增强评估的挑战性。为评估生成性,CREPE 包含 1.7 万张图像-文本对,涵盖九种不同复杂度层级,并配有 18.3 万条高难度负样本描述,其中包含原子性(atomic)、交换性(swapping)和否定性(negation)等类型干扰项。所有数据均通过重构 Visual Genome 场景图(scene graphs)与区域描述,并结合人工设计的模板与 GPT-3 生成。在系统性测试中,我们发现:当检索集中包含大量新颖组合时,模型性能持续下降,Recall@1 最多下降达 12%。在生成性测试中,随着任务复杂度的提升,模型的检索成功率显著衰减,在高复杂度条件下,其表现频繁接近随机猜测水平。上述结果在不同模型架构与训练数据规模下均保持一致,表明当前主流视觉-语言预训练模型在处理组合性任务方面仍存在根本性局限。