Ultra-Hohe-Auflösungs-Segmentierung mit ultra-reichem Kontext: Ein neuartiger Benchmark

Mit dem zunehmenden Interesse und der raschen Entwicklung von Methoden zur Ultra-Hochauflösungs-(UHR-)Segmentierung besteht dringender Bedarf an einem großskaligen Benchmark, der eine breite Palette an Szenen mit vollständigen, fein granularen dichten Annotationen abdeckt, um die Forschung in diesem Bereich voranzutreiben. Hierzu wird das URUR-Datenset vorgestellt – abgeleitet von „Ultra-High Resolution dataset with Ultra-Rich Context“. Wie der Name bereits andeutet, umfasst URUR eine große Anzahl an Bildern mit ausreichend hoher Auflösung (3.008 Bilder der Abmessung 5.120 × 5.120 Pixel), eine vielfältige Palette komplexer Szenen (aus 63 Städten), ausreichend reichhaltigen Kontext (1 Million Instanzen in 8 Kategorien) sowie fein granulare Annotationen (etwa 80 Milliarden manuell annotierte Pixel), was alle bisher verfügbaren UHR-Datensätze – einschließlich DeepGlobe, Inria Aerial und UDD – deutlich übertrifft. Darüber hinaus stellen wir WSDNet vor, einen effizienteren und leistungsfähigeren Ansatz für die UHR-Segmentierung, insbesondere in Szenarien mit ultra-reichhaltigem Kontext. Konkret wird die mehrstufige diskrete Wavelet-Transformation (DWT) nahtlos integriert, um die Rechenlast zu reduzieren, gleichzeitig jedoch mehr räumliche Details zu bewahren. Zusätzlich wird eine Wavelet-Smooth-Loss (WSL) eingeführt, um den ursprünglichen strukturierten Kontext und Texturen unter einer glatten Einschränkung wiederherzustellen. Experimente auf mehreren UHR-Datensätzen belegen die state-of-the-art-Leistungsfähigkeit des Ansatzes. Das Datenset ist unter https://github.com/jankyee/URUR verfügbar.