Amélioration de la détection des actions de football en utilisant à la fois les flux audio et vidéo

Dans cet article, nous proposons une étude sur la détection et la classification d'actions multi-modales (audio et vidéo) dans les vidéos de football. La détection et la classification des actions consistent à identifier les points temporels d'événements dans une vidéo et à déterminer leur nature. Il s'agit d'une application importante de la compréhension générale des activités. Nous présentons ici une étude expérimentale sur l'intégration de l'information audio et vidéo à différents stades des architectures de réseaux neuronaux profonds. Nous avons utilisé le jeu de données de référence SoccerNet, qui contient des événements annotés pour 500 vidéos de matchs de football provenant des cinq grands championnats européens. À travers ce travail, nous avons évalué plusieurs méthodes d'intégration du flux audio dans des architectures basées uniquement sur la vidéo. Nous avons observé une amélioration moyenne absolue du métrique mean Average Precision (mAP) de 7,43 % pour la tâche de classification d'actions et de 4,19 % pour la tâche de détection d'actions.