il y a 17 jours

SAG-ViT : Une approche de découpage sensible à l’échelle et à haute fidélité avec attention graphique pour les Vision Transformers

Shravan Venkatraman, Jaskaran Singh Walia, Joe Dhanith P R

Résumé

Les Vision Transformers (ViTs) ont redéfini la classification d’images en exploitant l’attention auto-associative pour capturer des motifs complexes et des dépendances à longue portée entre les patches d’image. Toutefois, un défi majeur pour les ViTs réside dans l’intégration efficace de représentations de caractéristiques multi-échelles, une caractéristique inhérente aux réseaux de neurones convolutifs (CNN) grâce à leur structure hiérarchique. Bien que les transformers basés sur les graphes aient progressé dans la résolution de ce problème en s’appuyant sur une modélisation graphique, ils perdent souvent ou ne représentent pas adéquatement les hiérarchies spatiales, notamment parce que les régions redondantes ou peu pertinentes diluent la représentation contextuelle de l’image. Pour combler cet écart, nous proposons SAG-ViT, un Vision Transformer sensible à l’échelle (Scale-Aware Graph Attention ViT), qui intègre les capacités de représentation multi-échelle des CNN, la puissance expressive des ViTs et une découpage patché piloté par graphe afin d’obtenir une représentation contextuelle plus riche. En utilisant EfficientNetV2 comme architecture principale, le modèle extrait des cartes de caractéristiques multi-échelles, les découpe en patches afin de préserver une information sémantique plus riche que celle obtenue par un découpage direct de l’image d’entrée. Ces patches sont ensuite structurés en graphe à l’aide de similarités spatiales et fonctionnelles, où un Réseau d’Attention sur Graphes (Graph Attention Network, GAT) affine les embeddings des nœuds. Cette représentation graphique révisée est ensuite traitée par un encodeur Transformer, permettant de capturer des dépendances à longue portée et des interactions complexes. Nous évaluons SAG-ViT sur des jeux de données standard couvrant divers domaines, validant ainsi son efficacité dans l’amélioration des tâches de classification d’images. Notre code et les poids du modèle sont disponibles à l’adresse suivante : https://github.com/shravan-18/SAG-ViT.