HyperAIHyperAI

Command Palette

Search for a command to run...

Kostenaggregation mit 4D-Convolutional Swin Transformer für Few-Shot-Segmentation

Sunghwan Hong Seokju Cho Jisu Nam Stephen Lin Seungryong Kim

Zusammenfassung

Diese Arbeit stellt ein neuartiges Kostenaggregationsnetzwerk namens Volumetric Aggregation with Transformers (VAT) für die Few-Shot-Segmentierung vor. Der Einsatz von Transformers kann die Aggregation von Korrelationskarten durch Selbst-Attention über einen globalen Empfindlichkeitsbereich unterstützen. Allerdings kann die Tokenisierung einer Korrelationskarte für die Transformer-Verarbeitung nachteilig sein, da die Diskontinuitäten an den Token-Grenzen den lokalen Kontext in der Nähe der Token-Ränder verringern und die induktive Bias reduzieren. Um dieses Problem zu lösen, schlagen wir einen 4D-Convolutional Swin Transformer vor, bei dem ein hochdimensionaler Swin Transformer durch eine Reihe kleiner Faltungen vorangestellt wird, die allen Pixeln lokalen Kontext verleihen und eine convolutionale induktive Bias einführen. Zusätzlich steigern wir die Aggregationsleistung, indem wir Transformers innerhalb einer pyramidenförmigen Struktur einsetzen, wobei die Aggregation auf einer groberen Ebene die Aggregation auf einer feineren Ebene leitet. Rauschen im Transformer-Ausgang wird anschließend im nachfolgenden Decoder durch die Hilfe der Erscheinungs-Embedding der Abfrage gefiltert. Mit diesem Modell wird eine neue State-of-the-Art-Leistung für alle Standardbenchmarks in der Few-Shot-Segmentierung erreicht. Es wird zudem gezeigt, dass VAT auch eine state-of-the-art-Leistung bei der semantischen Korrespondenz erzielt, bei der die Kostenaggregation ebenfalls eine zentrale Rolle spielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kostenaggregation mit 4D-Convolutional Swin Transformer für Few-Shot-Segmentation | Paper | HyperAI