vor 11 Tagen

Dichte Cross-Query-und-Support-Attention-Gewichtete Maske-Aggregation für Few-Shot-Segmentierung

Xinyu Shi, Dong Wei, Yu Zhang, Donghuan Lu, Munan Ning, Jiashun Chen, Kai Ma, Yefeng Zheng

Abstract

Die Forschung im Bereich der Few-shot Semantic Segmentation (FSS) hat erhebliche Aufmerksamkeit erfahren, wobei das Ziel darin besteht, Zielobjekte in einem Abfragebild zu segmentieren, ausgehend von lediglich wenigen annotierten Unterstützungsbildern der jeweiligen Kategorie. Ein Schlüsselaspekt dieser anspruchsvollen Aufgabe liegt in der vollständigen Ausnutzung der Informationen in den Unterstützungsbildern durch die Ausnutzung feinkörniger Korrelationen zwischen Abfrage- und Unterstützungsbildern. Allerdings komprimieren die meisten bestehenden Ansätze die Unterstützungsinformationen häufig in wenige klassenbezogene Prototypen oder nutzen nur teilweise die Unterstützungsinformationen (z. B. lediglich den Vordergrund) auf pixelweiser Ebene, was zu einer nicht vernachlässigbaren Informationsverlust führt. In diesem Artikel stellen wir DCAMA (Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation) vor, bei dem sowohl Vordergrund- als auch Hintergrundinformationen aus den Unterstützungsbildern über mehrstufige pixelweise Korrelationen zwischen gepaarten Abfrage- und Unterstützungsfunktionen vollständig ausgenutzt werden. DCAMA wird mit dem skalierten Punktprodukt-Attention-Modul der Transformer-Architektur implementiert und behandelt jeden Abfragepixel als Token, berechnet dessen Ähnlichkeit zu allen Unterstützungspixeln und prognostiziert die Segmentierungsmarke als additive Aggregation der Marken aller Unterstützungspixel – gewichtet nach den Ähnlichkeiten. Auf Basis der einzigartigen Formulierung von DCAMA entwickeln wir zudem eine effiziente und wirksame Ein-Pass-Inferenz für n-Shot-Segmentierung, bei der die Pixel aller Unterstützungsbilder gleichzeitig für die Maskenaggregation verwendet werden. Experimente zeigen, dass unsere DCAMA die State-of-the-Art-Leistung erheblich verbessert auf den etablierten FSS-Benchmarks PASCAL-5i, COCO-20i und FSS-1000, wobei beispielsweise bei 1-Shot mIoU absolute Verbesserungen von 3,1 %, 9,7 % und 3,6 % gegenüber den vorherigen Bestwerten erzielt werden. Ablationsstudien bestätigen zudem die Wirksamkeit der DCAMA-Architektur.