17 天前
COFAR:图像搜索中的常识与事实推理
Prajwal Gatti, Abhirama Subramanyam Penamakuri, Revant Teotia, Anand Mishra, Shubhashis Sengupta, Roshni Ramnani

摘要
人类相较于现代人工智能模型的一项显著优势,在于能够对图像进行超越视觉表象的深层理解。以以下两个自然语言搜索查询为例:(i)“一群顾客耐心排队等待购买冰淇淋”;(ii)“一群游客前往印度参观著名的莫卧儿建筑”。要准确理解这两个查询,需要具备两方面的能力:其一,运用常识推理,例如识别图像中的人物是顾客还是游客,行为是“排队购买”还是“前往参观”;其二,依赖与命名视觉实体相关的事实性知识,例如判断图像中的店铺是否售卖冰淇淋,或图像中的地标是否为位于印度的莫卧儿风格建筑。这种推理能力远超单纯的视觉识别范畴。为在图像搜索任务中同时支持常识推理与事实性知识推理,我们提出一种统一框架——知识检索增强的多模态Transformer(Knowledge Retrieval-Augmented Multimodal Transformer, KRAMT)。该框架将图像中的命名视觉实体视为通向百科知识的入口,结合自然语言查询,实现对相关知识的精准定位与融合。进一步地,KRAMT能够无缝整合视觉内容与所锚定的知识信息,从而学习图像与搜索查询之间的语义对齐关系。该统一框架被用于执行需要常识与事实推理能力的图像搜索任务。我们通过引入一个新数据集——COFAR(Commonsense and Factual Reasoning in Image Search),对KRAMT的检索性能进行了评估,并与现有相关方法进行了对比。实验结果表明,KRAMT在复杂语义理解任务中表现出优越性能。相关代码与数据集已公开,可访问 https://vl2g.github.io/projects/cofar 获取。