
摘要
我们提出了一种基于深度学习的新型群体活动识别方法——仅使用人体姿态的群体活动识别系统(Pose Only Group Activity Recognition System, POGARS),该系统仅依赖于人体追踪得到的姿态信息来预测群体活动。与现有的群体活动识别方法不同,POGARS采用一维卷积神经网络(1D CNN)来学习群体活动中个体的时空动态特征,而无需从像素数据中提取特征。所提出的模型结合了空间与时间注意力机制,用于推断个体在活动中的重要性,并采用多任务学习策略,实现群体活动与个体动作分类的同步预测。实验结果表明,尽管POGARS仅以追踪得到的姿态作为输入,在广泛使用的公开排球数据集上仍取得了与当前最先进方法相媲美的优异性能。此外,实验还表明,仅使用姿态信息作为输入时,POGARS相较于依赖RGB图像输入的方法展现出更强的泛化能力。