AMES : Estimation asymétrique et efficace en mémoire de la similarité pour la récupération au niveau des instances

Ce travail s'intéresse au problème du réajustement (re-ranking) de récupération d'images au niveau des instances, sous la contrainte d'une efficacité mémoire élevée, en visant finalement à limiter l'utilisation de la mémoire à 1 Ko par image. S'éloignant de l'accent actuel porté sur l'amélioration des performances, cette recherche met l'accent sur le compromis crucial entre performance et exigences mémoire. Le modèle proposé repose sur une architecture basée sur les Transformers, conçue pour estimer la similarité entre images en capturant les interactions à l'intérieur de chaque image et entre les images, à partir de leurs descripteurs locaux. Une caractéristique distinctive de ce modèle réside dans sa capacité à estimer de manière asymétrique la similarité. Les images de base de données sont représentées par un nombre réduit de descripteurs par rapport aux images de requête, permettant ainsi d'améliorer les performances sans augmenter la consommation mémoire. Pour garantir une adaptation à diverses applications, un modèle universel est introduit, capable d'ajuster dynamiquement le nombre de descripteurs locaux pendant la phase de test. Les résultats obtenus sur des benchmarks standards démontrent l'infériorité de notre approche par rapport aux modèles à descripteurs manuels ou appris. En particulier, comparé aux méthodes de pointe actuelles qui négligent leur empreinte mémoire, notre approche atteint non seulement des performances supérieures, mais le fait avec une empreinte mémoire significativement réduite. Le code source et les modèles pré-entraînés sont disponibles publiquement à l'adresse suivante : https://github.com/pavelsuma/ames