17 天前

视觉常识性 R-CNN

Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun
视觉常识性 R-CNN
摘要

我们提出了一种新型的无监督特征表示学习方法——视觉常识区域卷积神经网络(Visual Commonsense Region-based Convolutional Neural Network,简称 VC R-CNN),旨在作为高级视觉任务(如图像描述生成和视觉问答)中更优的视觉区域编码器。给定图像中检测到的一组物体区域(例如,通过 Faster R-CNN 检测获得),与其它无监督特征学习方法(如 word2vec)类似,VC R-CNN 的代理训练目标是预测某一区域的上下文物体。然而,二者在本质上有根本区别:VC R-CNN 采用因果干预机制进行预测,即 $ P(Y|do(X)) $,而传统方法则基于经典似然估计 $ P(Y|X) $。这一核心差异正是 VC R-CNN 能够学习“意义建构”型知识(例如“椅子可以被坐”)的关键原因,而非仅仅捕捉表面的共现关系(如“若观察到桌子,则椅子更可能同时出现”)。我们在三个主流任务——图像描述生成、视觉问答(VQA)和视觉常识推理(VCR)——中广泛使用 VC R-CNN 提取的特征,并在所有任务中均观察到一致的性能提升,取得了多项新的最先进(SOTA)结果。代码与特征资源已开源,详见:https://github.com/Wangt-CN/VC-R-CNN。

视觉常识性 R-CNN | 最新论文 | HyperAI超神经