vor 7 Tagen

Kostenaggregation mit 4D-Convolutional Swin Transformer für Few-Shot-Segmentation

Sunghwan Hong, Seokju Cho, Jisu Nam, Stephen Lin, Seungryong Kim

Abstract

Diese Arbeit stellt ein neuartiges Kostenaggregationsnetzwerk namens Volumetric Aggregation with Transformers (VAT) für die Few-Shot-Segmentierung vor. Der Einsatz von Transformers kann die Aggregation von Korrelationskarten durch Selbst-Attention über einen globalen Empfindlichkeitsbereich unterstützen. Allerdings kann die Tokenisierung einer Korrelationskarte für die Transformer-Verarbeitung nachteilig sein, da die Diskontinuitäten an den Token-Grenzen den lokalen Kontext in der Nähe der Token-Ränder verringern und die induktive Bias reduzieren. Um dieses Problem zu lösen, schlagen wir einen 4D-Convolutional Swin Transformer vor, bei dem ein hochdimensionaler Swin Transformer durch eine Reihe kleiner Faltungen vorangestellt wird, die allen Pixeln lokalen Kontext verleihen und eine convolutionale induktive Bias einführen. Zusätzlich steigern wir die Aggregationsleistung, indem wir Transformers innerhalb einer pyramidenförmigen Struktur einsetzen, wobei die Aggregation auf einer groberen Ebene die Aggregation auf einer feineren Ebene leitet. Rauschen im Transformer-Ausgang wird anschließend im nachfolgenden Decoder durch die Hilfe der Erscheinungs-Embedding der Abfrage gefiltert. Mit diesem Modell wird eine neue State-of-the-Art-Leistung für alle Standardbenchmarks in der Few-Shot-Segmentierung erreicht. Es wird zudem gezeigt, dass VAT auch eine state-of-the-art-Leistung bei der semantischen Korrespondenz erzielt, bei der die Kostenaggregation ebenfalls eine zentrale Rolle spielt.