Apprendre à discriminer l'information pour la détection en ligne des actions

Dans le cadre de la détection d'actions en ligne à partir d'une vidéo en flux, l'objectif est d'identifier les actions en cours. Pour cette tâche, les méthodes précédentes utilisaient des réseaux récurrents pour modéliser la séquence temporelle des images actuelles de l'action. Cependant, ces méthodes négligeaient le fait qu'une séquence d'images d'entrée comprend non seulement l'action recherchée, mais aussi du fond et des actions non pertinentes. Dans cet article, nous proposons une nouvelle unité récurrente visant à discriminer explicitement les informations pertinentes à une action en cours des autres. Notre unité, appelée Information Discrimination Unit (IDU) [Unité de Discrimination d'Information], détermine si elle doit accumuler les informations d'entrée en fonction de leur pertinence pour l'action actuelle. Cela permet à notre réseau récurrent doté de l'IDU d'apprendre une représentation plus discriminante pour identifier les actions en cours. Dans les expérimentations menées sur deux jeux de données de référence, TVSeries et THUMOS-14, la méthode proposée surpassent nettement les méthodes de pointe existantes. De plus, nous démontrons l'efficacité de notre unité récurrente grâce à des études ablationnelles exhaustives.