TokenLearner : Que peuvent faire 8 tokens appris pour les images et les vidéos ?

Dans cet article, nous introduisons une nouvelle méthode d'apprentissage de représentations visuelles fondée sur un petit nombre de tokens appris de manière adaptative, applicable aussi bien aux tâches de compréhension d'images qu'aux tâches de compréhension vidéo. Contrairement aux approches traditionnelles qui reposent sur des stratégies de découpage prédéfinies pour extraire des tokens visuels et traitent un grand nombre de patches denses pour l'attention, notre méthode apprend à identifier de manière automatique les tokens les plus pertinents dans les données visuelles. Cela permet d'extraire efficacement et de manière performante un petit ensemble de tokens visuels significatifs, tout en permettant de modéliser des interactions d'attention entre ces tokens sur une période temporelle étendue pour les vidéos, ou entre les éléments spatiaux dans les images. Nos expérimentations démontrent des performances solides sur plusieurs benchmarks exigeants pour les tâches de reconnaissance d'images et de vidéos. De manière importante, grâce à la nature adaptative de nos tokens, nous obtenons des résultats compétitifs avec une consommation de calcul significativement réduite. Nous atteignons des performances comparables aux états de l'art sur ImageNet tout en étant plus efficaces sur le plan computationnel. Nous confirmons également l'efficacité de notre approche sur plusieurs jeux de données vidéo, notamment Kinetics-400, Kinetics-600, Charades et AViD.Le code est disponible à l'adresse suivante : https://github.com/google-research/scenic/tree/main/scenic/projects/token_learner