
摘要
本文提出了一种新型的社会群体活动识别框架。作为群体活动识别任务的拓展,社会群体活动识别不仅需要识别多个子群体活动,还需明确群体成员身份。现有大多数方法通过细化区域特征,再将其汇总为活动特征来同时完成这两项任务。然而,这种基于经验的特征设计方式使得特征性能易受人体定位不完整的影响,并忽视了场景上下文的重要性。此外,区域特征在识别群体成员方面表现欠佳,因为其特征可能被区域内个体主导,且语义含义存在差异。为克服上述局限,本文提出利用Transformer中的注意力模块生成高效的社会群体特征。所提方法设计使得注意力模块能够自动识别与社会群体活动相关的特征,并进行聚合,从而为每个社会群体生成具有代表性的有效特征。群体成员信息被嵌入到这些特征中,进而可通过前馈网络进行访问。前馈网络的输出以高度紧凑的形式表征群体,使得群体成员可通过群体与个体之间的简单匈牙利匹配实现准确识别。实验结果表明,该方法在Volleyball和Collective Activity数据集上均优于现有最先进方法。