PANet: Few-Shot Bildsemantische Segmentierung mit Prototypausrichtung

Trotz der großen Fortschritte, die tiefe CNNs (Convolutional Neural Networks) bei der semantischen Bildsegmentierung erzielt haben, benötigen sie in der Regel eine große Anzahl dicht annotierter Bilder für das Training und es ist schwierig, sie auf unbekannte Objektkategorien zu verallgemeinern. Deshalb wurde die Few-Shot-Segmentierung entwickelt, um das Segmentieren von nur wenigen annotierten Beispielen auszulernen. In dieser Arbeit adressieren wir das anspruchsvolle Problem der Few-Shot-Segmentierung aus einer metrischen Lernperspektive und stellen PANet vor, ein neues Prototypen-Ausrichtungs-Netzwerk zur besseren Nutzung der Informationen des Support-Sets. Unser PANet lernt klassenspezifische Prototypendarstellungen aus wenigen Support-Bildern innerhalb eines Einbettungsraums und führt dann die Segmentierung über die Query-Bilder durch, indem es jeden Pixel mit den gelernten Prototypen abgleicht. Durch nichtparametrisches metrisches Lernen bietet PANet hochwertige Prototypen, die repräsentativ für jede semantische Klasse sind und gleichzeitig diskriminativ für verschiedene Klassen. Darüber hinaus führt PANet eine Prototypenausrichtungsregularisierung zwischen Support und Query ein. Dadurch nutzt PANet das Wissen aus dem Support vollständig aus und bietet eine bessere Verallgemeinerung bei Few-Shot-Segmentierung. Bedeutsamerweise erreicht unser Modell auf PASCAL-5i Scores von 48,1% im 1-Shot-Setting und 55,7% im 5-Shot-Setting, was den Stand der Technik um 1,8% und 8,6% übertrifft.