HyperAIHyperAI

Command Palette

Search for a command to run...

Vision GNN: Ein Bild ist wertvoller als ein Graph aus Knoten

Kai Han Yunhe Wang Jianyuan Guo Yehui Tang Enhua Wu

Zusammenfassung

Das Netzwerkarchitektur spielt eine entscheidende Rolle in tiefen Lern-basierten Computer-Vision-Systemen. Die weit verbreiteten Faltungsneuralen Netze (Convolutional Neural Networks, CNNs) und Transformer behandeln Bilder als Gitter- oder Sequenzstruktur, was nicht flexibel genug ist, um unregelmäßige und komplexe Objekte zu erfassen. In diesem Artikel schlagen wir vor, Bilder als Graphstruktur darzustellen, und führen eine neue Vision-GNN-Architektur (ViG) ein, um graphenbasierte Merkmale für visuelle Aufgaben zu extrahieren. Zunächst teilen wir das Bild in mehrere Patch-Regionen auf, die als Knoten interpretiert werden, und bauen einen Graphen durch Verbindung der nächsten Nachbarn auf. Auf Basis dieser graphenbasierten Bildrepräsentation entwickeln wir unser ViG-Modell, um Informationen zwischen allen Knoten zu transformieren und auszutauschen. Die ViG-Architektur besteht aus zwei grundlegenden Modulen: dem Grapher-Modul mit Graphenfaltung zur Aggregation und Aktualisierung von graphenbasierten Informationen sowie dem FFN-Modul mit zwei linearen Schichten zur Transformation von Knotenmerkmalen. Sowohl isotrope als auch pyramidenförmige Architekturen von ViG werden mit unterschiedlichen Modellgrößen realisiert. Umfangreiche Experimente auf Aufgaben der Bildklassifikation und Objekterkennung belegen die Überlegenheit unserer ViG-Architektur. Wir hoffen, dass diese wegweisende Studie zur Anwendung von GNNs auf allgemeine visuelle Aufgaben zukünftige Forschungsarbeiten durch nützliche Anregungen und Erfahrungen bereichern wird. Der PyTorch-Code ist unter https://github.com/huawei-noah/Efficient-AI-Backbones verfügbar, und der MindSpore-Code ist unter https://gitee.com/mindspore/models zugänglich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp