2 个月前
以行为者为中心的关系网络
Chen Sun; Abhinav Shrivastava; Carl Vondrick; Kevin Murphy; Rahul Sukthankar; Cordelia Schmid

摘要
当前最先进的时空动作定位方法依赖于帧级别的检测,并使用3D卷积神经网络(ConvNets)建模时间上下文。在此基础上,我们进一步研究了时空关系模型,以捕捉人类演员、相关物体和场景元素之间的互动,这些互动对于区分相似的人类动作至关重要。我们的方法采用弱监督学习,并通过以演员为中心的关系网络(Actor-Centric Relational Network, ACRN)自动挖掘相关元素。ACRN从演员特征和全局场景特征中计算并累积成对关系信息,生成用于动作分类的关系特征。该方法基于神经网络实现,并可以与现有的动作检测系统联合训练。实验结果表明,ACRN在捕获关系信息方面优于其他替代方法,并且所提出的框架在JHMDB和AVA数据集上的性能超过了现有最先进水平。对学习到的关系特征进行可视化验证了我们的方法能够关注每个动作的相关关系。