Temporally-Aware Feature Pooling pour la Détection d'Actions dans les Replays de Football

Vers l'objectif de production automatique des retransmissions sportives, une tâche primordiale consiste à comprendre les informations sémantiques de haut niveau du jeu en cours. Par exemple, la reconnaissance et la localisation des principales actions du jeu permettraient aux producteurs d'adapter et d'automatiser la production de la retransmission, en se concentrant sur les détails importants du jeu et en maximisant l'engagement des spectateurs. Dans cet article, nous nous concentrons sur l'analyse de la détection d'actions dans les retransmissions de football, qui consiste à localiser temporellement les principales actions lors d'un match de football. À cette fin, nous proposons une nouvelle méthode de regroupement de caractéristiques basée sur NetVLAD, appelée NetVLAD++, qui intègre une connaissance sensible au temps. Contrairement aux méthodes de regroupement précédentes qui considèrent le contexte temporel comme un ensemble unique à partir duquel regrouper, nous séparons le contexte avant et après que l'action se produise. Nous soutenons que considérer les informations contextuelles autour du point d'action comme une seule entité conduit à un apprentissage sous-optimal pour le module de regroupement. Avec NetVLAD++, nous dissocions le contexte des images passées et futures et apprenons des vocabulaires spécifiques de sémantique pour chaque sous-ensemble, évitant ainsi de mélanger et d'estomper ces vocabulaires dans le temps. L'injection de ce savoir préalable crée des modules de regroupement plus informatifs et des caractéristiques regroupées plus discriminantes, conduisant à une meilleure compréhension des actions. Nous entraînons et évaluons notre méthodologie sur le récent ensemble de données SoccerNet-v2, atteignant un Average-mAP (moyenne moyenne pondérée) de 53,4 % pour la détection d'actions, soit une amélioration de +12,7 % par rapport à l'état actuel de l'art.