Intermediate Prototype Mining Transformer für Few-Shot-Semantische Segmentierung

Few-shot semantische Segmentierung zielt darauf ab, die Zielobjekte in einer Abfrage unter Verwendung nur weniger annotierter Unterstützungsabbildungen zu segmentieren. Die meisten vorherigen Ansätze bemühen sich, effektivere Kategorieninformationen aus den Unterstützungsabbildungen zu extrahieren, um diese mit den entsprechenden Objekten in der Abfrage zu verknüpfen. Allerdings ignorieren sie alle den Kategorieninformationsunterschied zwischen Abfrage- und Unterstützungsabbildungen. Wenn die Objekte in beiden Bildern eine große intra-klassische Vielfalt aufweisen, ist die erzwungene Übertragung von Kategorieninformationen von den Unterstützungs- auf die Abfrageabbildungen ineffektiv. Um dieses Problem zu lösen, führen wir erstmals einen intermediären Prototypen ein, um sowohl deterministische Kategorieninformationen aus den Unterstützungsabbildungen als auch adaptive Kategoriewissen aus der Abfrage zu gewinnen. Konkret entwerfen wir einen Intermediate Prototype Mining Transformer (IPMT), um den Prototypen iterativ zu lernen. In jeder IPMT-Schicht übertragen wir die Objektinformationen aus den Unterstützungs- und Abfragefeatures auf den Prototypen und nutzen diesen anschließend, um die Abfragefeaturekarte zu aktivieren. Durch wiederholte Durchführung dieses Prozesses werden sowohl der intermediäre Prototyp als auch die Abfragefeatures schrittweise verbessert. Schließlich wird das endgültige Abfragefeature zur präzisen Segmentierungsvorhersage verwendet. Umfangreiche Experimente auf den Datensätzen PASCAL-5i und COCO-20i bestätigen eindeutig die Wirksamkeit unseres IPMT und zeigen, dass er die vorherigen state-of-the-art-Methoden deutlich übertrifft. Der Quellcode ist unter https://github.com/LIUYUANWEI98/IPMT verfügbar.