Apprentissage d'une représentation basée sur les tokens pour la recherche d'images

Dans le domaine du recherche d’images, les caractéristiques locales profondes apprises de manière data-driven se sont avérées efficaces pour améliorer les performances de recherche. Afin de permettre une recherche efficace sur de grandes bases de données d’images, certaines approches quantifient les caractéristiques locales profondes à l’aide d’un grand codebook et comparent les images à l’aide d’un noyau de correspondance agrégée. Toutefois, la complexité de ces méthodes reste significative, avec une empreinte mémoire importante, ce qui limite leur capacité à réaliser conjointement l’apprentissage des caractéristiques et leur agrégation. Pour générer des représentations globales compactes tout en préservant la capacité de correspondance régionale, nous proposons un cadre unifié permettant d’apprendre conjointement la représentation des caractéristiques locales et leur agrégation. Dans notre cadre, nous extrayons d’abord des caractéristiques locales profondes à l’aide de réseaux de neurones convolutifs (CNN). Ensuite, nous concevons un module de tokenisation pour agréger ces caractéristiques en un petit nombre de tokens visuels, chacun correspondant à un motif visuel spécifique. Cette étape permet d’éliminer le bruit de fond et de capturer des régions plus discriminantes de l’image. Par la suite, un bloc de raffinement est introduit pour améliorer les tokens visuels grâce à des mécanismes d’attention auto- et inter-attention. Enfin, les différents tokens visuels sont concaténés afin de générer une représentation globale compacte. L’ensemble du cadre est entraîné de manière end-to-end à l’aide d’étiquettes au niveau de l’image. Des expériences étendues ont été menées pour évaluer notre approche, qui obtient des résultats supérieurs aux méthodes de l’état de l’art sur les jeux de données Revisited Oxford et Paris.