9 天前

前瞻视频Transformer

Rohit Girdhar, Kristen Grauman
前瞻视频Transformer
摘要

我们提出了一种名为前瞻性视频变换器(Anticipative Video Transformer, AVT)的端到端注意力机制视频建模架构,该架构通过关注先前观测到的视频内容,实现对未来动作的预测。该模型在训练过程中联合优化两项任务:一是预测视频序列中的下一个动作,二是学习能够预测后续帧特征的帧特征编码器。相较于现有的时序聚合策略,AVT兼具两个优势:既能保持已观测动作的时序连续性,又能有效捕捉长距离依赖关系——这两点对于动作预测任务至关重要。通过大量实验验证,AVT在四个主流动作预测基准数据集上均取得了当前最优的性能表现,包括EpicKitchens-55、EpicKitchens-100、EGTEA Gaze+和50-Salads;并在EpicKitchens-100 CVPR'21挑战赛中荣获第一名。