HyperAIHyperAI
vor 17 Tagen

SuperYOLO: Super Resolution assistierte Objekterkennung in multimodalen Fernerkundungsbildern

Jiaqing Zhang, Jie Lei, Weiying Xie, Zhenman Fang, Yunsong Li, Qian Du
SuperYOLO: Super Resolution assistierte Objekterkennung in multimodalen Fernerkundungsbildern
Abstract

Die präzise und zeitnahe Erkennung von multiskaligen kleinen Objekten mit lediglich einigen Dutzend Pixeln in Fernerkundungsbildern (RSI) bleibt weiterhin eine herausfordernde Aufgabe. Die meisten bestehenden Ansätze entwerfen komplizierte tiefe neuronale Netze, um starke Merkmalsrepräsentationen für Objekte abzuleiten, die sich vom Hintergrund abheben, was häufig mit einem hohen Rechenaufwand einhergeht. In diesem Artikel stellen wir SuperYOLO vor – eine genaue und dennoch schnelle Objekterkennungsmethode für RSI, die multimodale Daten fusioniert und hochauflösende (HR) Objekterkennung für multiskalige Objekte mittels assistierter Super-Resolution-(SR)-Lernstrategie ermöglicht, wobei sowohl die Erkennungsgenauigkeit als auch der Rechenaufwand berücksichtigt werden. Zunächst nutzen wir eine symmetrische, kompakte multimodale Fusionsstruktur (MF), um ergänzende Informationen aus verschiedenen Datenquellen zu extrahieren und die Erkennung kleiner Objekte in RSI zu verbessern. Darüber hinaus entwerfen wir eine einfache und flexible SR-Abzweigung, die HR-Merkmale lernt, um kleine Objekte von großflächigen Hintergründen bei niedriger Auflösung (LR) als Eingabe klar zu unterscheiden, wodurch die Erkennungsgenauigkeit weiter gesteigert wird. Um zusätzlichen Rechenaufwand zu vermeiden, wird die SR-Abzweigung im Inferenzstadium entfernt, wodurch der Berechnungsaufwand aufgrund der LR-Eingabe reduziert wird. Experimentelle Ergebnisse zeigen, dass SuperYOLO auf dem weit verbreiteten VEDAI-RSI-Datensatz eine Genauigkeit von 75,09 % (gemessen an mAP50) erreicht – mehr als 10 Prozentpunkte über den derzeitigen Stand der Technik (SOTA) bei großen Modellen wie YOLOv5l, YOLOv5x und RS-optimierten YOLOrs. Gleichzeitig beträgt die Anzahl der Modellparameter und die GFLOPs von SuperYOLO etwa 18-mal bzw. 3,8-mal weniger als die von YOLOv5x. Unser vorgeschlagenes Modell zeigt gegenüber den aktuellen SOTA-Modellen ein besonders günstiges Verhältnis zwischen Genauigkeit und Geschwindigkeit. Der Quellcode wird unter https://github.com/icey-zhang/SuperYOLO öffentlich zugänglich gemacht.