2 个月前
HAKE:人类活动知识引擎
Yong-Lu Li; Liang Xu; Xinpeng Liu; Xijie Huang; Yue Xu; Mingyang Chen; Ze Ma; Shiyi Wang; Hao-Shu Fang; Cewu Lu

摘要
理解人类活动对于构建自动智能系统至关重要。借助深度学习技术,近年来在活动理解方面取得了巨大进展。然而,仍存在一些挑战,如数据分布不均衡、动作模糊性和复杂的视觉模式。为了解决这些问题并推动活动理解的发展,我们基于人体部位状态构建了一个大规模的人类活动知识引擎(HAKE)。在现有的活动数据集基础上,我们对所有图像中所有活跃人员的部位状态进行了标注,从而建立了实例活动与身体部位状态之间的关系。此外,我们提出了一种基于HAKE的部位状态识别模型,该模型包含一个名为Activity2Vec的知识提取器和相应的基于部位状态的推理网络。通过HAKE,我们的方法可以缓解长尾数据分布带来的学习难度,并提高可解释性。目前,我们的HAKE已拥有超过700万个部位状态注释,并且仍在建设中。在本初步论文中,我们首先在一个部分的HAKE上验证了我们的方法,在人体-物体交互识别任务上实现了7.2 mAP性能提升,在单样本子集上实现了12.38 mAP的性能提升。