ActionFormer : Localisation de moments d’actions à l’aide de Transformers

Les modèles Transformer basés sur l’attention auto-attention ont démontré des résultats remarquables pour la classification d’images, la détection d’objets, et plus récemment pour la compréhension des vidéos. Inspirés par ces succès, nous étudions l’application des réseaux Transformer à la localisation temporelle d’actions dans les vidéos. À cette fin, nous proposons ActionFormer — un modèle simple mais puissant permettant d’identifier les actions dans le temps et de reconnaître leurs catégories en une seule passe, sans recourir à des propositions d’actions ni à des fenêtres d’ancrage prédéfinies. ActionFormer combine une représentation de caractéristiques multi-échelle avec une attention locale auto-attention, et utilise un décodeur léger pour classifier chaque instant temporel et estimer les bornes correspondantes des actions. Nous montrons que cette conception orchestrée permet d’obtenir des améliorations significatives par rapport aux approches antérieures. Sans ajouts superflus, ActionFormer atteint un mAP de 71,0 % à tIoU = 0,5 sur THUMOS14, surpassant le meilleur modèle antérieur de 14,1 points de pourcentage absolus. En outre, ActionFormer obtient des résultats remarquables sur ActivityNet 1.3 (mAP moyen de 36,6 %) et EPIC-Kitchens 100 (+13,5 % de mAP moyen par rapport aux travaux antérieurs). Notre code est disponible à l’adresse http://github.com/happyharrycn/actionformer_release.