Dichte Gaussische Prozesse für Few-Shot-Segmentation

Few-shot-Segmentierung ist eine anspruchsvolle Aufgabe der dichten Vorhersage, bei der ein neuartiges Abfragebild segmentiert werden soll, basierend lediglich auf einem kleinen, annotierten Support-Satz. Das zentrale Problem besteht daher darin, eine Methode zu entwerfen, die detaillierte Informationen aus dem Support-Satz aggregiert, gleichzeitig jedoch robust gegenüber großen Variationen in Erscheinungsbild und Kontext ist. Dazu schlagen wir eine Few-shot-Segmentierungsmethode basierend auf dichter Gaussian Process (GP)-Regression vor. Gegeben den Support-Satz lernt unsere dichte GP die Abbildung von lokalen tiefen Bilddaten auf Maskenwerte, wodurch komplexe Erscheinungsbildverteilungen erfasst werden können. Zudem bietet sie eine konsistente Möglichkeit, Unsicherheit zu erfassen, die als zusätzlicher, leistungsfähiger Hinweis für die endgültige Segmentierung dient, welche mittels eines CNN-Decoder erzeugt wird. Anstelle einer eindimensionalen Maskenausgabe nutzen wir die Fähigkeit unseres Ansatzes zum end-to-end-Lernen, um einen hochdimensionalen Ausgaberaum für die GP zu lernen. Unser Ansatz erreicht eine neue State-of-the-Art-Leistung auf den Benchmarks PASCAL-5$^i$ und COCO-20$^i$, wobei im 5-Shot-Setting auf COCO-20$^i$ ein absoluter Gewinn von $+8.4$ mIoU erzielt wird. Darüber hinaus skaliert die Segmentierungsqualität unseres Ansatzes reibungslos mit zunehmender Größe des Support-Satzes und erreicht gleichzeitig robuste Übertragung zwischen Datensätzen. Der Quellcode und die trainierten Modelle sind unter \url{https://github.com/joakimjohnander/dgpnet} verfügbar.