iSAID: Ein umfangreiches Datensatz für die Instanzsegmentierung in Luftbildern

Bestehende Erdbeobachtungsdatensätze sind entweder für die semantische Segmentierung oder die Objekterkennung geeignet. In dieser Arbeit stellen wir den ersten Benchmark-Datensatz für die Instanzsegmentierung in Luftbildern vor, der die Aufgaben der objektbasierten Erkennung und der pixelgenauen Segmentierung kombiniert. Im Vergleich zur Instanzsegmentierung in natürlichen Szenen präsentieren Luftbilder einzigartige Herausforderungen, wie zum Beispiel eine große Anzahl von Instanzen pro Bild, erhebliche Skalenvariationen der Objekte und zahlreiche winzige Objekte. Unser groß angelegter und dicht annotierter Datensatz zur Instanzsegmentierung in Luftbildern (iSAID) umfasst 655.451 Objektinstanzen für 15 Kategorien auf 2.806 hochaufgelösten Bildern. Solche präzisen per-Pixel-Annotierungen für jede Instanz gewährleisten eine genaue Lokalisierung, die für eine detaillierte Szeneanalyse entscheidend ist. Im Vergleich zu bestehenden kleineren Luftbild-basierten Instanzsegmentierungsdatensätzen enthält iSAID 15-fach so viele Objektkategorien und 5-fach so viele Instanzen. Wir evaluieren unseren Datensatz mit zwei gängigen Ansätzen zur Instanzsegmentierung in natürlichen Bildern, nämlich Mask R-CNN und PANet. In unseren Experimenten zeigen wir, dass die direkte Anwendung von standardisierten Mask R-CNN- und PANet-Modellen auf Luftbilder suboptimale Ergebnisse bei der Instanzsegmentierung liefert, was spezialisierte Lösungen aus der Forschergemeinschaft erfordert. Der Datensatz ist öffentlich verfügbar unter: https://captain-whu.github.io/iSAID/index.html