LSTA : Attention à court et long terme pour la reconnaissance d'actions égocentriques

La reconnaissance d'activités égocentriques est l'une des tâches les plus complexes dans l'analyse vidéo. Elle nécessite une discrimination fine de petits objets et de leurs manipulations. Bien que certaines méthodes s'appuient sur une supervision forte et des mécanismes d'attention, elles sont soit très consommatrices d'annotations, soit ne prennent pas en compte les motifs spatio-temporels. Dans cet article, nous proposons LSTA comme un mécanisme permettant de se concentrer sur les caractéristiques des parties spatialement pertinentes tout en suivant l'attention de manière fluide au fil de la séquence vidéo. Nous démontrons l'efficacité de LSTA pour la reconnaissance d'activités égocentriques grâce à une architecture à deux flux entièrement entraînable en fin à fin, atteignant des performances de pointe sur quatre benchmarks standards.