Une fonction de perte contextuelle pour la détection d'actions dans les vidéos de football

Dans le domaine de la compréhension vidéo, l'identification d'actions consiste à localiser temporellement les événements provoqués par des humains et annotés avec un seul timestamp. Dans cet article, nous proposons une nouvelle fonction de perte qui prend en compte spécifiquement le contexte temporel naturellement présent autour de chaque action, plutôt que de se concentrer uniquement sur le cadre unique annoté pour l'identification. Nous évaluons notre fonction de perte sur un grand ensemble de données composé de vidéos de football, SoccerNet, et obtenons une amélioration de 12,8 % par rapport à la méthode de référence. Nous démontrons également la capacité de généralisation de notre fonction de perte pour des propositions d'activités génériques et leur détection sur ActivityNet, en identifiant le début et la fin de chaque activité. De plus, nous fournissons une étude d'ablation approfondie et présentons des cas difficiles pour l'identification d'actions dans les vidéos de football. Enfin, nous illustrons qualitativement comment notre fonction de perte induit une compréhension temporelle précise des actions et montrons comment ce type de connaissance sémantique peut être utilisé pour la génération automatique d'extraits marquants.