HyperAIHyperAI

Command Palette

Search for a command to run...

SegViT: Semantische Segmentierung mit einfachen Vision Transformers

Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin Wei Chunhua Shen Yifan Liu

Zusammenfassung

Wir untersuchen die Fähigkeit von einfachen Vision Transformers (ViTs) für die semantische Segmentierung und stellen SegVit vor. Bisherige auf ViTs basierende Segmentierungsnetzwerke erlernen typischerweise eine pixelweise Darstellung aus der Ausgabe des ViT. Im Gegensatz dazu nutzen wir die grundlegende Komponente – die Aufmerksamkeitsmechanik –, um Segmentierungsmasken zu generieren. Konkret stellen wir das Attention-to-Mask (ATM)-Modul vor, bei dem die Ähnlichkeitskarten zwischen einer Menge lernbarer Klassen-Token und den räumlichen Merkmalskarten direkt in die Segmentierungsmasken überführt werden. Experimente zeigen, dass unser vorgeschlagenes SegVit mit dem ATM-Modul die Leistung seiner Konkurrenten mit einem herkömmlichen ViT-Backbone auf dem ADE20K-Datensatz übertrifft und auf den Datensätzen COCO-Stuff-10K und PASCAL-Context neue SOTA-Ergebnisse erzielt. Darüber hinaus schlagen wir query-basierte Down-Sampling (QD) und query-basierte Up-Sampling (QU) vor, um eine kompaktere Struktur – die sogenannte Shrunk-Struktur – zu realisieren, um die Rechenkosten des ViT-Backbones zu reduzieren. Mit der vorgeschlagenen Shrunk-Struktur kann das Modell bis zu 40 % Rechenoperationen einsparen, ohne die Wettbewerbsfähigkeit der Leistung einzubüßen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp