Localisation temporelle d’événements multi-tirages : une référence

Les développements actuels en localisation temporelle d’événements ou d’actions se concentrent généralement sur des actions capturées par une seule caméra. Toutefois, les événements ou actions complexes dans des environnements réels peuvent être enregistrés sous forme d’une séquence de plans par plusieurs caméras positionnées à différents endroits. Dans ce papier, nous proposons une nouvelle tâche exigeante, appelée localisation temporelle d’événements multi-shot, et introduisons en conséquence un grand jeu de données, nommé MUlti-Shot EventS (MUSES). MUSES contient 31 477 instances d’événements réparties sur un total de 716 heures de vidéos. La caractéristique fondamentale de MUSES réside dans la fréquence des changements de plan : en moyenne, chaque instance comporte 19 plans, et chaque vidéo en contient 176, ce qui engendre de fortes variations intra-instance. Nos évaluations approfondies montrent que l’état de l’art en localisation temporelle d’actions atteint seulement un mAP de 13,1 % à un seuil d’IoU de 0,5. Comme contribution mineure, nous proposons une approche de base simple pour traiter les variations intra-instance, qui obtient un mAP de 18,9 % sur MUSES et de 56,9 % sur THUMOS14 à un seuil d’IoU de 0,5. Afin de faciliter la recherche dans cette direction, nous mettons à disposition le jeu de données ainsi que le code source à l’adresse suivante : https://songbai.site/muses/.