Apprentissage par attention croisée dual pour la catégorisation visuelle fine et la ré-identification d'objets

Récemment, les mécanismes d’attention auto-attention ont fait preuve d’une performance remarquable dans diverses tâches de traitement du langage naturel (NLP) et de vision par ordinateur (CV), permettant de capturer efficacement les caractéristiques séquentielles et d’extraire des informations globales. Dans ce travail, nous explorons comment étendre les modules d’attention auto-attention afin d’améliorer l’apprentissage d’encodages de caractéristiques subtils, particulièrement pour la reconnaissance d’objets à granularité fine, tels que différentes espèces d’oiseaux ou les identités humaines. À cette fin, nous proposons un algorithme d’apprentissage par attention croisée dual (DCAL) pour compléter l’apprentissage par attention auto-attention. Premièrement, nous introduisons une attention croisée global-local (GLCA) afin de renforcer les interactions entre les images globales et les régions locales à forte réponse, ce qui permet de renforcer les indices discriminants spatiaux utiles à la reconnaissance. Deuxièmement, nous proposons une attention croisée par paires (PWCA) pour établir des interactions entre paires d’images. La PWCA régularise l’apprentissage de l’attention d’une image en considérant une autre image comme distracteur, et est supprimée lors de l’inférence. Nous observons que DCAL permet de réduire les attentions trompeuses et de diffuser la réponse d’attention afin de découvrir davantage de parties complémentaires pour la reconnaissance. Nous menons des évaluations étendues sur des tâches de catégorisation visuelle à granularité fine et de réidentification d’objets. Les expérimentations montrent que DCAL atteint des performances comparables aux méthodes de pointe et améliore de manière cohérente plusieurs bases d’attention auto-attention, par exemple en dépassant DeiT-Tiny et ViT-Base de 2,8 % et 2,4 % de mAP respectivement sur MSMT17.