2 个月前

端到端时空动作定位的视频变换器方法

Alexey Gritsenko; Xuehan Xiong; Josip Djolonga; Mostafa Dehghani; Chen Sun; Mario Lučić; Cordelia Schmid; Anurag Arnab
端到端时空动作定位的视频变换器方法
摘要

最先进的时空动作定位模型通常依赖外部的人体检测建议和复杂的外部记忆库。我们提出了一种完全端到端、纯基于变压器(Transformer)的模型,该模型可以直接输入视频,并输出管状序列——即每帧中的边界框序列及其对应的动作类别。我们的灵活模型可以使用稀疏的单帧边界框监督或完整的管状序列注释进行训练。在这两种情况下,模型都能预测出连贯的管状序列作为输出。此外,我们的端到端模型无需额外的预处理步骤来生成人体检测建议,也无需在后处理中进行非极大值抑制。我们进行了广泛的消融实验,并在四个不同的时空动作定位基准数据集上显著提升了现有技术水平,无论使用稀疏关键帧还是完整的管状序列注释。