Apprentissage de sélection d'action faiblement supervisé dans les vidéos

Localiser des actions dans des vidéos constitue une tâche fondamentale en vision par ordinateur. Le problème de localisation temporelle faiblement supervisée s'interroge sur la possibilité de résoudre adéquatement cette tâche à l'aide uniquement d'étiquettes au niveau de la vidéo, ce qui réduit considérablement la quantité d'étiquetages coûteux et sujets à erreur nécessaires. Une approche courante consiste à entraîner un classificateur au niveau des trames, où les trames présentant la plus forte probabilité de classe sont sélectionnées pour effectuer une prédiction au niveau de la vidéo. Les activations au niveau des trames sont ensuite utilisées pour la localisation. Toutefois, l'absence d'étiquettes au niveau des trames conduit le classificateur à introduire un biais de classe sur chaque trame. Pour remédier à ce problème, nous proposons une méthode appelée Action Selection Learning (ASL), visant à capturer le concept général d’action, que nous désignons par le terme « actionness ». Dans le cadre d’ASL, le modèle est entraîné sur une tâche novatrice indépendante des classes, dont l’objectif est de prédire quelles trames seront sélectionnées par le classificateur. Expérimentalement, nous démontrons que ASL surpasse les meilleures méthodes de référence sur deux benchmarks populaires, THUMOS-14 et ActivityNet-1.2, avec des améliorations relatives respectives de 10,3 % et 5,7 %. Nous analysons également en profondeur les propriétés d’ASL et mettons en évidence l’importance du concept d’actionness. Le code complet de ce travail est disponible à l’adresse suivante : https://github.com/layer6ai-labs/ASL.