11 天前

细粒度视觉-语言理解中的进展度量

Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh

摘要

尽管在大规模网络图像-文本数据上进行预训练已显著推动了众多视觉-语言（Vision-and-Language, V&L）任务的进展，但近期研究表明，现有预训练模型在“细粒度”理解方面仍存在明显不足，例如难以识别图像中的关系、动词及数字等语义信息。这一局限引发了学术界对开发新型评估基准或模型以提升此类能力的广泛关注。为更深入地理解并量化该方向的进展，我们对四种具有代表性的V&L模型在四个细粒度评估基准上进行了系统性比较。分析结果表明，X-VLM（Zeng等，2022）在各项任务中均显著优于其他基线模型；同时我们发现，模型架构上的创新对性能提升的影响，甚至超过单纯扩大网络数据的规模，且在某些情况下，数据规模的增加反而会导致性能下降。通过对X-VLM的深入探究，我们进一步揭示了新颖损失函数设计与丰富多源数据对于学习细粒度视觉-语言能力的关键作用。最后，我们分析了模型的训练动态，发现部分任务的性能在训练初期即达到峰值，或在训练过程中出现显著波动，始终未能实现稳定收敛。