11 天前

RelViT:面向视觉关系推理的概念引导视觉Transformer

Xiaojian Ma, Weili Nie, Zhiding Yu, Huaizu Jiang, Chaowei Xiao, Yuke Zhu, Song-Chun Zhu, Anima Anandkumar
RelViT:面向视觉关系推理的概念引导视觉Transformer
摘要

视觉关系推理是人类理解视觉世界的核心机制。然而,对于当前的深度学习算法而言,这一任务仍极具挑战性,因为它需要同时解决三个关键技术难题:1)识别物体实体及其属性;2)推断实体之间的语义关系;3)对新颖的物体-关系组合实现泛化,即系统性泛化能力。在本研究中,我们以视觉Transformer(Vision Transformers, ViTs)作为基础模型,并通过更有效地利用“物体实体”及其“关系”等概念,提升ViTs的推理能力。具体而言,我们提出一种新型的概念-特征字典(concept-feature dictionary),在训练阶段通过概念键(concept keys)实现灵活的图像特征检索。该字典支持两种新的概念引导型辅助任务:1)全局任务,用于促进关系推理;2)局部任务,用于辅助语义上的以物体为中心的对应学习。为评估视觉推理模型的系统性泛化能力,我们在标准的HICO和GQA基准数据集上引入了系统性划分(systematic splits)。实验结果表明,所提出的模型——概念引导视觉Transformer(简称RelViT),在原始划分下于HICO和GQA基准上分别比以往方法提升16%和13%;在系统性划分下,性能提升分别达到43%和18%。消融实验进一步验证了该模型对多种ViT变体的良好兼容性,以及对超参数设置的鲁棒性。

RelViT:面向视觉关系推理的概念引导视觉Transformer | 最新论文 | HyperAI超神经