FactSeg: Vordergrund-Aktivierungsgesteuerte semantische Segmentierung kleiner Objekte in großskaligen Fernerkundungsbildern
Die Aufgabe der semantischen Segmentierung kleiner Objekte zielt darauf ab, zentrale Objekte automatisch aus hochauflösenden Fernerkundungsbildern (HRS) zu extrahieren. Im Vergleich zu den großflächigen Abdeckungsbereichen in Fernerkundungsbildern enthalten die zentralen Objekte wie Autos, Schiffe usw. in HRS-Bildern oft lediglich einige Pixel. In diesem Artikel wird zur Bewältigung dieses Problems der struktur- und optimierungsorientierte Framework für die semantische Segmentierung kleiner Objekte namens FactSeg vorgeschlagen, der auf der Grundlage der Voraussetzungen der Vordergrundaktivierung (Foreground Activation, FA) entwickelt wurde. Bei der Strukturgestaltung wird eine FA-Objektrepräsentation vorgeschlagen, um die Erkennung schwacher Merkmale kleiner Objekte zu verbessern. Das FA-Objektrepräsentationsframework besteht aus einem dualen Decoder und einer kollaborativen Wahrscheinlichkeitsverlustfunktion (Collaborative Probability Loss, CP-Loss). Im dualen Decoder ist der FA-Zweig so ausgelegt, dass er die Merkmale kleiner Objekte aktiviert (Aktivierung) und gleichzeitig den großflächigen Hintergrund unterdrückt, während der Semantikverfeinerungs-Zweig (Semantic Refinement, SR) darauf abzielt, kleine Objekte weiterhin zu unterscheiden (Verfeinerung). Der CP-Loss wird eingeführt, um die Aktivierungs- und Verfeinerungsausgaben des Decoders unter der Annahme der kollaborativen Wahrscheinlichkeit effektiv zu kombinieren. Während der Zusammenarbeit werden die schwachen Merkmale kleiner Objekte durch die Aktivierungsausgabe verstärkt, während die verfeinerte Ausgabe als Verfeinerung der binären Ausgaben interpretiert werden kann. Im Optimierungsprozess wird eine Netzwerkoptimierung basierend auf dem Prinzip der kleinen Objektförderung (Small Object Mining, SOM) eingesetzt, um automatisch wirksame Trainingsbeispiele auszuwählen, die Richtung der Optimierung zu verfeinern und gleichzeitig das Problem der unbalancierten Stichprobenverteilung zwischen kleinen Objekten und großflächigem Hintergrund zu lösen. Die experimentellen Ergebnisse auf zwei Standard-Datensätzen für die Segmentierung von HRS-Bildern zeigen, dass das vorgeschlagene Framework die aktuell besten Methoden der semantischen Segmentierung übertrifft und ein gutes Gleichgewicht zwischen Genauigkeit und Effizienz erreicht.