
摘要
全景场景图生成(Panoptic Scene Graph Generation, PSG)旨在通过同时分割对象并预测对象之间的关系来实现全面的图像理解。然而,关系中的长尾问题导致了在实际应用中结果不尽如人意。先前的方法主要依赖视觉信息,或者仅利用有限的语言信息,例如对象或关系的名称,从而忽视了语言信息的潜在价值。借助近期大型语言模型(Large Language Models, LLMs)的进步,我们提出利用语言信息辅助关系预测,特别是对于稀有关系。为此,我们提出了视觉-语言提示(Vision-Language Prompting, VLPrompt)模型,该模型从图像中获取视觉信息,并从大型语言模型中获取语言信息。然后,通过基于注意力机制的提示网络,实现了精确的关系预测。我们的大量实验表明,VLPrompt 在 PSG 数据集上显著优于之前的最先进方法,证明了结合语言信息的有效性,并缓解了关系中的长尾问题。代码可在以下链接获取:\url{https://github.com/franciszzj/TP-SIS}。