PatchRefineNet: Verbesserung der binären Segmentierung durch Einbeziehung von Signalen aus optimaler patchweiser Binarisierung

Das Ziel von binären Segmentierungsmodellen ist es, zu bestimmen, welche Pixel einem Objekt von Interesse zugeordnet werden (z.B. welche Pixel in einem Bild Teile von Straßen sind). Die Modelle weisen jedem Pixel einen Logit-Wert (d.h. Wahrscheinlichkeit) zu, und diese Werte werden durch Schwellwertbildung in Vorhersagen umgewandelt (d.h., jeder Pixel mit einem Logit-Wert $\geq τ$ wird als Teil einer Straße vorhergesagt). Ein häufiges Phänomen in aktuellen und ehemaligen state-of-the-art-Segmentierungsmodellen ist jedoch der räumliche Bias – in manchen Bereichen werden die Logit-Werte systematisch nach oben verfälscht und in anderen Bereichen nach unten. Diese Verzerrungen führen zu Fehlpositiven und Falschnegativen in den endgültigen Vorhersagen. In dieser Arbeit schlagen wir PatchRefineNet (PRN) vor, ein kleines Netzwerk, das auf einem Basissegmentierungsmodell aufbaut und lernt, dessen bereichsspezifische Biases zu korrigieren. Bei einer Vielzahl von Basismodellen hilft PRN konsistent dabei, das mIoU um 2-3\% zu verbessern. Eine der wesentlichen Ideen hinter PRN ist die Hinzufügung eines neuen Supervisionszeichens während des Trainings. Anhand der Logit-Werte, die vom Basissegmentierungsmodell erzeugt werden, erhält jedes Pixel eine Pseudo-Label, das durch optimale Schwellwertbildung der Logit-Werte in jedem Bildbereich gewonnen wird. Die Einbeziehung dieser Pseudo-Labels in die Verlustfunktion von PRN hilft bei der Korrektur systematischer Biases und zur Reduzierung von Fehlpositiven/Falschnegativen. Obwohl wir uns hauptsächlich auf binäre Segmentierung konzentrieren, zeigen wir auch, wie PRN auf Salienzdetektion und Few-Shot-Segmentierung erweitert werden kann. Wir diskutieren außerdem, wie diese Ideen auf Mehrklassensegmentierung übertragen werden können.