HyperAIHyperAI
vor 2 Monaten

UVid-Net: Verbesserte semantische Segmentierung von UAV-Luftbildvideos durch Einbettung zeitlicher Informationen

S, Girisha ; Verma, Ujjwal ; M, Manohara Pai M ; Pai, Radhika
UVid-Net: Verbesserte semantische Segmentierung von UAV-Luftbildvideos durch Einbettung zeitlicher Informationen
Abstract

Die semantische Segmentierung von Luftbildvideos wird weitgehend für Entscheidungsfindung bei der Überwachung von Umweltveränderungen, städtischer Planung und Katastrophenschutz eingesetzt. Die Zuverlässigkeit dieser Entscheidungsunterstützungssysteme hängt von der Genauigkeit der Algorithmen zur semantischen Segmentierung von Videos ab. Die bestehenden CNN-basierten Methoden zur Video-Semantiksegmentierung haben die Bild-Semantiksegmentierungsmethoden durch die Einbeziehung eines zusätzlichen Moduls wie LSTM oder optischen Flusses verbessert, um die zeitliche Dynamik des Videos zu berechnen, was jedoch einen rechnerischen Mehraufwand darstellt. Das vorgeschlagene Forschungsprojekt modifiziert die CNN-Architektur durch die Einbeziehung zeitlicher Informationen, um die Effizienz der Video-Semantiksegmentierung zu verbessern.In dieser Arbeit wird eine erweiterte encoder-decoder-basierte CNN-Architektur (UVid-Net) für die semantische Segmentierung von UAV-Videos vorgeschlagen. Der Encoder der vorgeschlagenen Architektur integriert zeitliche Informationen für eine konsistente zeitliche Beschriftung. Der Decoder wurde durch das Einführen des Feature-Refiner-Moduls verbessert, das bei der genauen Lokalisierung der Klassenlabels hilft. Die vorgeschlagene UVid-Net-Architektur für die semantische Segmentierung von UAV-Videos wurde quantitativ auf dem erweiterten ManipalUAVid-Datensatz evaluiert. Es wurde ein Leistungswert von mIoU = 0.79 beobachtet, der erheblich höher ist als bei anderen Stand-of-the-Art-Algorithmen. Darüber hinaus zeigte das vorgeschlagene Projekt vielversprechende Ergebnisse auch bei der Anwendung des vorab trainierten UVid-Net-Modells auf Stadtszenen mit Feinabstimmung der letzten Schicht anhand von UAV-Luftbildvideos.