AutoFocusFormer : Segmentation d'images hors grille

Les images du monde réel présentent souvent une densité de contenu fortement déséquilibrée. Certaines régions sont très uniformes, par exemple de grandes zones de ciel bleu, tandis que d'autres sont dispersées avec de nombreux petits objets. Pourtant, la stratégie courante de redimensionnement successif par grille utilisée dans les réseaux profonds à convolution traite toutes les régions de manière égale. Ainsi, les petits objets sont représentés par très peu de points spatiaux, ce qui entraîne de moins bons résultats dans des tâches telles que la segmentation. Intuitivement, conserver davantage de pixels représentant les petits objets durant le redimensionnement permet de préserver des informations importantes. Pour atteindre cet objectif, nous proposons AutoFocusFormer (AFF), un noyau d'identification d'images basé sur un transformateur à attention locale, qui réalise un redimensionnement adaptatif en apprenant à conserver les pixels les plus pertinents pour la tâche. Étant donné que le redimensionnement adaptatif génère un ensemble de pixels distribués de manière irrégulière dans le plan de l'image, nous abandonnons la structure classique en grille. À la place, nous développons un nouveau bloc d'attention locale basé sur des points, facilité par un module de regroupement équilibré et un module d'agrégation de voisinage apprenable, permettant d'obtenir des représentations pour des têtes de segmentation d'état de l'art adaptées à une approche par points. Les expériences montrent qu'AutoFocusFormer (AFF) améliore significativement les modèles de base de taille similaire.