Récupération d'images au niveau de l'instance à l'aide de Transformers de réordonnancement

Le traitement de recherche d’images à l’échelle d’instance consiste à rechercher dans une base de données volumineuse des images correspondant à un objet présent dans une image de requête. Pour aborder cette tâche, les systèmes s’appuient généralement sur une étape de recherche utilisant des descripteurs globaux d’image, suivie d’une étape ultérieure de raffinement ou de réclassement spécifique au domaine, exploitant des opérations telles que la vérification géométrique basée sur des caractéristiques locales. Dans ce travail, nous proposons les Transformers de réclassement (RRTs), un modèle général permettant d’intégrer à la fois des caractéristiques locales et globales afin de réclassement les images correspondantes de manière supervisée, et ainsi remplacer le processus relativement coûteux de vérification géométrique. Les RRTs sont légers et peuvent être facilement parallélisés, permettant ainsi de réclassement un ensemble de résultats correspondants de haut niveau en une seule passe avant. Nous menons des expériences approfondies sur les jeux de données Revisited Oxford et Paris, ainsi que sur le jeu de données Google Landmarks v2, montrant que les RRTs surpassent les approches antérieures de réclassement tout en utilisant beaucoup moins de descripteurs locaux. En outre, nous démontrons qu’à la différence des approches existantes, les RRTs peuvent être optimisés conjointement avec l’extraitteur de caractéristiques, ce qui permet d’obtenir des représentations de caractéristiques adaptées aux tâches ultérieures et d’améliorer davantage la précision. Le code et les modèles entraînés sont disponibles publiquement à l’adresse suivante : https://github.com/uvavision/RerankingTransformer.