Détection en temps réel des événements dans les vidéos de football à l’aide de réseaux de neurones convolutifs 3D

Dans cet article, nous présentons un algorithme de détection automatique d’événements dans des vidéos de football basé sur des réseaux de neurones convolutifs 3D. L’algorithme utilise une approche à fenêtre glissante pour analyser une vidéo donnée et détecter des événements tels que des buts, des cartons jaunes ou rouges, ainsi que des changements de joueurs. Nous évaluons la méthode sur trois jeux de données distincts provenant de SoccerNet, de l’Allsvenskan suédoise et de l’Eliteserien norvégienne. Les résultats globaux montrent que nous pouvons détecter les événements avec un rappel élevé, une latence faible et une estimation temporelle précise. Le compromis réside dans une précision légèrement inférieure à celle de l’état de l’art actuel, qui présente toutefois une latence plus élevée et se distingue davantage lorsque l’on accepte une estimation temporelle moins précise. En complément de l’algorithme proposé, nous menons une étude d’ablation approfondie afin d’analyser l’impact de chaque composant du pipeline d’entraînement sur les résultats finaux.