TARN : Réseau de Relations Temporelles Attentives pour la Reconnaissance d'Actions en Few-Shot et Zero-Shot

Dans cet article, nous proposons un nouveau réseau de relations temporelles attentives (TARN) pour les problèmes de reconnaissance d'actions en few-shot et en zero-shot. Au cœur de notre réseau se trouve une approche de méta-apprentissage qui apprend à comparer des représentations de longueur temporelle variable, c'est-à-dire soit deux vidéos de longueurs différentes (dans le cas de la reconnaissance d'actions en few-shot), soit une vidéo et une représentation sémantique telle qu'un vecteur de mots (dans le cas de la reconnaissance d'actions en zero-shot). Contrairement aux autres travaux sur la reconnaissance d'actions en few-shot et en zero-shot, nous a) utilisons des mécanismes d'attention pour effectuer l'alignement temporel, et b) apprenons une mesure de distance profonde sur les représentations alignées au niveau des segments vidéo. Nous adoptons un schéma d'entraînement basé sur des épisodes et entraînons notre réseau de manière end-to-end. La méthode proposée ne nécessite aucun ajustement fin dans le domaine cible ni la maintenance de représentations supplémentaires, comme c'est le cas pour les réseaux à mémoire. Les résultats expérimentaux montrent que l'architecture proposée surpasses l'état de l'art en reconnaissance d'actions en few-shot et obtient des résultats compétitifs en reconnaissance d'actions en zero-shot.