HyperAIHyperAI
vor 2 Monaten

Echtzeit-Dynamisches Skalenbewusstes Fusionsdetektionsnetzwerk: Am Beispiel der Straßenschadensdetektion

Weichao Pan; Xu Wang; Wenqing Huan
Echtzeit-Dynamisches Skalenbewusstes Fusionsdetektionsnetzwerk: Am Beispiel der Straßenschadensdetektion
Abstract

Die Erkennung von Straßenschäden durch unbemannte Fluggeräte (Unmanned Aerial Vehicles, UAV) ist für den täglichen Wartungsbedarf und die Sicherheit in Städten von großer Bedeutung, insbesondere hinsichtlich der erheblichen Senkung der Arbeitskosten. Dennoch steht derzeitige Forschung zur UAV-basierten Straßenschaden-Erkennung (Road Damage Detection, RDD) vor zahlreichen Herausforderungen. Zum Beispiel beeinflussen Schäden mit unregelmäßiger Größe und Richtung, die Verdeckung von Schäden durch den Hintergrund sowie die Schwierigkeit, Schäden vom Hintergrund zu unterscheiden, erheblich die Fähigkeit von UAVs, bei täglichen Inspektionen Straßenschäden zu erkennen. Um diese Probleme zu lösen und die Leistungsfähigkeit von UAVs bei der Echtzeit-Straßenschaden-Erkennung zu verbessern, haben wir drei entsprechende Module entwickelt und vorgeschlagen: ein Merkmalsextraktionsmodul, das sich flexibel an Form und Hintergrund anpasst; ein Modul zur Fusionierung mehrskaliger Wahrnehmung, das sich ebenfalls an Form und Hintergrund anpasst; sowie ein effizientes Downsampling-Modul. Auf Basis dieser Module haben wir ein mehrskaliges, anpassungsfähiges Modell zur Erkennung von Straßenschäden entwickelt, das automatisch Hintergrundstörungen entfernt und als Dynamisches Skalenbewusstes Fusionierungs-Erkennungsmodell (Dynamic Scale-Aware Fusion Detection Model, RT-DSAFDet) bezeichnet wird.Experimentelle Ergebnisse auf dem öffentlichen Datensatz UAV-PDD2023 zeigen, dass unser Modell RT-DSAFDet einen mAP50-Wert von 54,2 % erreicht, was 11,1 % höher ist als der Wert des effizienten Variants YOLOv10-m des neuesten Echtzeit-Objekterkennungsmodells YOLOv10. Gleichzeitig wurde die Anzahl der Parameter auf 1,8 Mio. reduziert und die FLOPs auf 4,6 Mrd., was jeweils eine Reduktion um 88 % und 93 % bedeutet. Darüber hinaus zeigt unser Modell auch auf dem großen öffentlichen Datensatz MS COCO2017 seine Überlegenheit: Der mAP50-95-Wert entspricht dem von YOLOv9-t, aber unser Modell erreicht einen 0,5 % höheren mAP50-Wert bei gleichzeitig einer Verringerung der Parametermenge um 10 % und einer Reduzierung der FLOPs um 40 %.

Echtzeit-Dynamisches Skalenbewusstes Fusionsdetektionsnetzwerk: Am Beispiel der Straßenschadensdetektion | Neueste Forschungsarbeiten | HyperAI