Apprentissage d'événements latents superieurs pour détecter plusieurs activités dans les vidéos

Dans cet article, nous introduisons le concept d'apprentissage de super-événements latents à partir de vidéos d'activités et présentons comment il bénéficie à la détection d'activités dans les vidéos continues. Nous définissons un super-événement comme un ensemble de plusieurs événements se produisant simultanément dans des vidéos avec une organisation temporelle particulière ; c'est le concept opposé aux sous-événements. Les vidéos du monde réel contiennent plusieurs activités et sont rarement segmentées (par exemple, les vidéos de surveillance), et l'apprentissage de super-événements latents permet au modèle de capturer comment les événements sont liés temporellement dans les vidéos. Nous concevons des filtres de structure temporelle qui permettent au modèle de se concentrer sur des sous-intervalles particuliers des vidéos, et nous les utilisons en conjonction avec un mécanisme d'attention douce pour apprendre des représentations de super-événements latents. Les représentations de super-événements sont combinées avec des CNN par image ou par segment pour fournir des annotations au niveau des images. Notre approche est conçue pour être entièrement différentiable, ce qui permet un apprentissage intégral des représentations de super-événements latents conjointement avec le détecteur d'activités qui les utilise. Nos expériences sur plusieurs jeux de données vidéo publics confirment que le concept proposé d'apprentissage de super-événements latents apporte un bénéfice significatif à la détection d'activités, faisant progresser l'état de l'art.