Localisation temporelle d’actions faiblement supervisée par apprentissage progressif complémentaire

La localisation d’actions temporelles faiblement supervisée (WSTAL) vise à localiser et à classifier des instances d’actions dans des vidéos longues et non découpées, en ne disposant que d’étiquettes au niveau de la vidéo. En raison de l’absence de supervision au niveau des segments (snippets) pour indiquer les bornes des actions, les méthodes antérieures attribuent généralement des pseudo-étiquettes aux segments non étiquetés. Toutefois, comme certaines instances d’actions appartenant à des catégories différentes sont visuellement similaires, il est complexe d’attribuer correctement une seule catégorie d’action à un segment, et des pseudo-étiquettes erronées peuvent nuire à la performance de localisation. Pour résoudre ce problème, nous proposons une nouvelle méthode inspirée d’un point de vue d’exclusion catégorielle, nommée apprentissage progressif complémentaire (ProCL), qui améliore progressivement la supervision au niveau des segments. Notre approche s’inspire du fait que les étiquettes au niveau de la vidéo indiquent précisément les catégories que tous les segments ne peuvent pas appartenir, un aspect ignoré par les travaux antérieurs. En conséquence, nous excluons tout d’abord ces catégories certainement absentes grâce à une perte d’apprentissage complémentaire. Ensuite, nous introduisons une étiquetage pseudo-complémentaire conscient du fond afin d’exclure davantage de catégories pour les segments présentant une faible ambiguïté. Enfin, pour les segments encore ambigus, nous cherchons à réduire cette ambiguïté en distinguant les actions au premier plan du fond. Les résultats expérimentaux étendus montrent que notre méthode atteint un nouveau record d’état de l’art sur deux benchmarks populaires, à savoir THUMOS14 et ActivityNet1.3.