Apprentissage de la détection d'actions par glimpses de frames dans les vidéos

Dans cette étude, nous présentons une approche entièrement de bout en bout pour la détection d'actions dans les vidéos, capable d'apprendre à prédire directement les limites temporelles des actions. Notre intuition est que le processus de détection d'actions est naturellement un processus d'observation et de raffinement : observer des moments dans une vidéo et affiner des hypothèses sur le moment où une action se produit. À partir de cette constatation, nous formulons notre modèle comme un agent basé sur un réseau neuronal récurrent qui interagit avec une vidéo au fil du temps. L'agent observe les images de la vidéo et décide à la fois où regarder ensuite et quand émettre une prédiction. Comme la rétropropagation n'est pas suffisante dans ce contexte non différentiable, nous utilisons l'algorithme REINFORCE pour apprendre la politique décisionnelle de l'agent. Notre modèle obtient des résultats d'état de l'art sur les jeux de données THUMOS'14 et ActivityNet tout en ne considérant qu'une fraction (2 % ou moins) des images de la vidéo.