Détection d'événements dans des vidéos sportives grossièrement annotées par des convolutions 1D à champs récepteurs multiples en parallèle

Dans des domaines tels que l'analyse vidéo sportive, il est difficile d'obtenir des annotations précises au niveau des images et une durée exacte des événements en raison de la longueur des vidéos et du volume important de données vidéo. Ce problème est encore plus marqué dans les sports rapides comme le hockey sur glace. L'obtention d'annotations à une échelle grossière peut être beaucoup plus pratique et efficace en termes de temps. Nous proposons la tâche de détection d'événements dans des vidéos grossièrement annotées. Nous introduisons une architecture de réseau convolutif temporel multi-tour pour cette tâche proposée. Le réseau, grâce à plusieurs champs récepteurs, traite l'information à différentes échelles temporelles pour tenir compte de l'incertitude concernant l'emplacement et la durée exacts des événements. Nous démontrons l'efficacité de l'architecture multi-champs récepteurs par le biais d'études d’ablation appropriées. La méthode est évaluée sur deux tâches : la détection d'événements dans des vidéos de hockey sur glace grossièrement annotées du dataset NHL et la détection d'événements dans le football sur le dataset SoccerNet. Les deux datasets manquent d'annotations au niveau des images et présentent des fréquences d'événements très distinctes. Les résultats expérimentaux montrent l'efficacité du réseau en obtenant un score F1 moyen de 55% sur le dataset NHL et en atteignant une performance compétitive par rapport à l'état de l'art sur le dataset SoccerNet. Nous croyons que notre approche aidera à développer des pipelines plus pratiques pour la détection d'événements dans les vidéos sportives.