17 天前

COMPOSER:基于仅关键点模态的视频中群体活动的组合推理

Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, Hans Peter Graf
COMPOSER:基于仅关键点模态的视频中群体活动的组合推理
摘要

群体活动识别旨在检测由一组参与者共同完成的活动,这需要对参与者与物体之间的组合关系进行推理。为此,我们提出将视频建模为表示视频中多尺度语义概念的“令牌”(tokens),并设计了COMPOSER——一种基于多尺度Transformer的架构,该架构在每个尺度上对令牌进行基于注意力的推理,并以组合方式学习群体活动的构成。此外,现有方法普遍存在场景偏差问题,且涉及隐私与伦理风险。为缓解这些问题,我们仅采用关键点模态(keypoint modality),该方式有效降低了场景偏差,同时避免获取可能包含用户隐私或偏见信息的详细视觉数据。在COMPOSER中,我们通过聚类中间尺度的表示来增强多尺度表征,同时保持不同尺度间聚类分配的一致性。最后,我们引入针对关键点信号定制的辅助预测与数据增强技术,以提升模型训练效果。我们在两个广泛使用的数据集(Volleyball与Collective Activity)上验证了该模型在性能与可解释性方面的优势。仅使用关键点模态,COMPOSER即实现了最高达+5.4%的性能提升。代码已开源,地址为:https://github.com/hongluzhou/composer。