16 天前

PaStaNet:迈向人类活动知识引擎

Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang, Hao-Shu Fang, Ze Ma, Mingyang Chen, Cewu Lu
PaStaNet:迈向人类活动知识引擎
摘要

现有的基于图像的活动理解方法主要采用直接映射策略,即从图像直接映射到活动概念,但由于图像与活动语义之间存在巨大鸿沟,此类方法容易遭遇性能瓶颈。针对这一问题,我们提出了一条新路径:首先推断人体各部位的状态,再基于部位级别的语义信息推理出完整活动。人体部位状态(Human Body Part States, PaSta)是一类细粒度的动作语义标记,例如〈手,抓取,某物〉,这些标记可组合构成各类活动,有助于我们逐步构建人类活动知识引擎。为充分挖掘PaSta的潜力,我们构建了一个大规模知识库PaStaNet,其中包含超过700万条PaSta标注数据。同时,我们提出了两种相应的模型:其一,设计了名为Activity2Vec的模型,用于提取PaSta特征,旨在获得适用于多种活动的通用表征;其二,提出基于PaSta的推理方法以实现活动识别。得益于PaStaNet的支持,我们的方法在多种任务上取得了显著提升:在监督学习下,于HICO数据集的完整集和零样本集上分别达到6.4和13.9的mAP;在迁移学习场景下,于V-COCO和基于图像的AVA数据集上分别获得3.2和4.2的mAP。代码与数据集已公开,访问地址为:http://hake-mvig.cn/。

PaStaNet:迈向人类活动知识引擎 | 最新论文 | HyperAI超神经