2 个月前

学习动作和人物-物体交互模型并迁移至问答任务

Arun Mallya; Svetlana Lazebnik
学习动作和人物-物体交互模型并迁移至问答任务
摘要

本文提出了一种利用局部和全局上下文的深度卷积网络模型,用于静态图像中的人类活动标签预测,在两个包含数百个标签的最新数据集上实现了最先进的性能。我们采用了多实例学习方法来解决单个人体实例层面监督不足的问题,并通过加权损失函数来处理训练数据不平衡的问题。此外,我们展示了如何使用在这些数据集上训练的专门特征来提高视觉问答(VQA)任务的准确性,具体形式为多项选择填空题(Visual Madlibs)。特别地,我们针对两类问题进行了研究:人体活动和人物-物体关系,并证明了相比在ImageNet分类任务上训练的一般特征,这些专门特征能够显著提升准确率。

学习动作和人物-物体交互模型并迁移至问答任务 | 最新论文 | HyperAI超神经