HyperAIHyperAI
vor 17 Tagen

SAG-ViT: Eine skalenbewusste, hochauflösende Patching-Methode mit Graph-Attention für Vision Transformers

Shravan Venkatraman, Jaskaran Singh Walia, Joe Dhanith P R
SAG-ViT: Eine skalenbewusste, hochauflösende Patching-Methode mit Graph-Attention für Vision Transformers
Abstract

Vision Transformers (ViTs) haben die Bildklassifikation neu definiert, indem sie selbstbezogene Aufmerksamkeit nutzen, um komplexe Muster und langreichweitige Abhängigkeiten zwischen Bildpatches zu erfassen. Ein zentrales Problem für ViTs besteht jedoch darin, effizient mehrskalige Merkmalsdarstellungen zu integrieren, die in convolutionalen neuronalen Netzen (CNNs) durch deren hierarchische Struktur inhärent sind. Graph-Transformer haben Fortschritte bei der Lösung dieses Problems erzielt, indem sie graphbasierte Modellierung nutzen, verlieren jedoch oft oder unzureichend räumliche Hierarchien, insbesondere da überflüssige oder weniger relevante Bereiche die kontextuelle Repräsentation des Bildes verwischen. Um diese Lücke zu schließen, stellen wir SAG-ViT, einen scale-aware Graph Attention Vision Transformer, vor, der die Mehrskalenmerkmalsfähigkeit von CNNs, die repräsentative Stärke von ViTs sowie graphgesteuerte Patching-Strategien kombiniert, um eine reichhaltigere kontextuelle Repräsentation zu ermöglichen. Ausgehend von EfficientNetV2 als Backbone extrahiert das Modell mehrskalige Merkmalskarten, die anschließend in Patches unterteilt werden, wodurch reichhaltigere semantische Informationen erhalten bleiben im Vergleich zur direkten Patching der Eingabebilder. Die Patches werden anhand räumlicher und funktionaler Ähnlichkeiten in ein Graphen strukturiert, wobei ein Graph Attention Network (GAT) die Knoten-Embeddings verfeinert. Diese verfeinerte graphbasierte Repräsentation wird dann von einem Transformer-Encoder verarbeitet, um langreichweitige Abhängigkeiten und komplexe Interaktionen zu erfassen. Wir evaluieren SAG-ViT auf Benchmark-Datensätzen aus verschiedenen Domänen und bestätigen so dessen Wirksamkeit bei der Verbesserung von Bildklassifikationsaufgaben. Unser Code und die gewichteten Modelle sind unter https://github.com/shravan-18/SAG-ViT verfügbar.