Feature-Proxy Transformer für Few-Shot-Segmentierung

Few-shot-Segmentierung (FSS) zielt darauf ab, die semantische Segmentierung für neue Klassen durchzuführen, ausgehend von nur wenigen annotierten Unterstützungssample. Bei einer Neubewertung der jüngsten Fortschritte stellen wir fest, dass der aktuelle FSS-Framework weit vom überwachten Segmentierungsansatz abgewichen ist: Während FSS-Methoden tiefen Merkmalsrepräsentationen typischerweise einen komplexen Decoder zur Durchführung fein abgestimmter pixelweiser Übereinstimmungen gegenüberstellen, verwenden überwachte Segmentierungsansätze eine einfache lineare Klassifikationshead. Aufgrund der Komplexität des Decoders und seines Übereinstimmungspipelines ist es nicht einfach, diesen FSS-Framework zu verfolgen. In diesem Artikel revitalisieren wir den einfachen Ansatz „Merkmalsextraktor $+$ lineare Klassifikationshead“ und stellen eine neuartige Feature-Proxy-Transformer-(FPTrans)-Methode vor, bei der der „Proxy“ den Vektor darstellt, der eine semantische Klasse im linearen Klassifikationshead repräsentiert. FPTrans weist zwei Schlüsselelemente zur Lernung diskriminativer Merkmale und repräsentativer Proxy-Vektoren auf: 1) Um die begrenzten Unterstützungssample besser auszunutzen, lässt der Merkmalsextraktor die Abfrage von den unteren bis zu den oberen Schichten mit den Unterstützungsmerkmalen über eine neuartige Anregungsstrategie interagieren. 2) FPTrans verwendet mehrere lokale Hintergrund-Proxy (im Gegensatz zu nur einem), da der Hintergrund nicht homogen ist und möglicherweise einige neue Vordergrundregionen enthalten kann. Diese beiden Schlüsselelemente lassen sich problemlos in einen Vision-Transformer-Backbone integrieren, insbesondere mit der Anregungsmechanik im Transformer. Gegeben die gelernten Merkmale und Proxy-Vektoren, vergleicht FPTrans direkt deren Kosinus-Ähnlichkeit zur Segmentierung. Obwohl der Rahmen einfach gehalten ist, zeigen wir, dass FPTrans eine konkurrenzfähige FSS-Genauigkeit erreicht, die mit den besten decoderbasierten Methoden vergleichbar ist.