2 个月前

学习构建动态树结构以捕捉视觉上下文

Kaihua Tang; Hanwang Zhang; Baoyuan Wu; Wenhan Luo; Wei Liu
学习构建动态树结构以捕捉视觉上下文
摘要

我们提出构建动态树结构,将图像中的对象置于视觉上下文中,以帮助完成诸如场景图生成和视觉问答等视觉推理任务。我们的视觉上下文树模型(简称VCTree)在现有结构化对象表示方法(如链式结构和全连接图)中具有两大优势:1)高效的二叉树结构能够编码对象之间的固有并行/层次关系,例如,“衣物”和“裤子”通常共同出现且属于“人物”;2)动态结构根据不同的图像和任务而变化,允许对象之间进行更加内容/任务特定的信息传递。为了构建VCTree,我们设计了一个评分函数,用于计算每对对象之间的任务依赖有效性,该树是评分矩阵的最大生成树的二叉版本。接着,通过双向TreeLSTM对视觉上下文进行编码,并由任务特定模型进行解码。我们开发了一种混合学习程序,将端任务监督学习与树结构强化学习相结合,其中前者的评估结果作为后者结构探索的自我批评依据。在两个需要上下文推理的基准数据集上的实验结果表明,VCTree不仅超越了当前最先进的结果,还发现了可解释的视觉上下文结构:Visual Genome用于场景图生成,VQA2.0用于视觉问答。

学习构建动态树结构以捕捉视觉上下文 | 最新论文 | HyperAI超神经