Localisation temporelle d'actions au niveau des points : Pont entre des propositions entièrement supervisées et des pertes faiblement supervisées

La localisation d’actions temporelles au niveau des points (PTAL) vise à localiser les actions dans des vidéos non tronquées en ne disposant que d’une seule annotation temporelle par instance d’action. Les méthodes existantes adoptent un paradigme de prédiction au niveau des trames pour apprendre à partir d’étiquettes éparses provenant d’une seule trame. Toutefois, ce cadre subit inévitablement un espace de solution très large. Ce papier explore pour la première fois le paradigme de prédiction basé sur des propositions pour les annotations au niveau des points, qui présente l’avantage d’un espace de solution plus contraint et de prédictions cohérentes entre trames voisines. Les annotations au niveau des points sont d’abord utilisées comme supervision par points clés afin d’entraîner un détecteur de points clés. À l’étape de prédiction des localisations, un module de mappage simple mais efficace, permettant la rétropropagation des erreurs d’apprentissage, est introduit afin de relier le cadre entièrement supervisé à la supervision faible. À notre connaissance, il s’agit du premier travail à exploiter le paradigme entièrement supervisé dans le cadre des annotations au niveau des points. Des expériences menées sur THUMOS14, BEOID et GTEA confirment l’efficacité de notre méthode, tant du point de vue quantitatif que qualitatif, et démontrent que notre approche surpasser les méthodes de pointe actuelles.