VDD: Varied Drone Dataset für die semantische Segmentierung

Die semantische Segmentierung von Drohnenbildern ist für zahlreiche Aufgaben im Bereich der Luftbildvision von entscheidender Bedeutung, da sie essentielle semantische Informationen liefert, um Szenen auf der Erdoberfläche zu verstehen. Die Gewährleistung einer hohen Genauigkeit semantischer Segmentierungsmodelle für Drohnen erfordert den Zugriff auf vielfältige, großskalige und hochauflösende Datensätze, die im Bereich der Luftbildverarbeitung häufig Mangelware sind. Während bestehende Datensätze typischerweise auf städtische Szenen fokussiert sind und relativ klein dimensioniert sind, adressiert unser Varied Drone Dataset (VDD) diese Einschränkungen durch die Bereitstellung einer großskaligen, dicht annotierten Sammlung aus 400 hochauflösenden Bildern, die sich über sieben Klassen erstrecken. Das Dataset umfasst eine Vielzahl von Szenen aus städtischen, industriellen, ländlichen und natürlichen Gebieten, die aus unterschiedlichen Kamerawinkeln und unter variierenden Lichtbedingungen aufgenommen wurden. Zudem führen wir neue Annotationen für UDD und UAVid durch und integrieren diese unter den VDD-Annotierungsstandards, um den Integrated Drone Dataset (IDD) zu erstellen. Wir trainieren sieben state-of-the-art-Modelle auf Drohnen-Datensätzen als Baseline. Es wird erwartet, dass unser Datensatz erhebliches Interesse an der Segmentierung von Drohnenbildern wecken und als Fundament für weitere Aufgaben im Bereich der Drohnen-Vision dienen wird. Die Datensätze sind öffentlich unter \href{our website}{https://github.com/RussRobin/VDD} verfügbar.