Réseau de détection de fusion en temps réel et sensible à l'échelle dynamique : Cas de la détection des dommages sur les routes

La détection des dommages routiers à l'aide de véhicules aériens non pilotés (UAV) est cruciale pour la maintenance quotidienne et la sécurité dans les villes, en particulier pour réduire considérablement les coûts de main-d'œuvre. Cependant, les recherches actuelles sur la détection des dommages routiers par UAV (RDD) font toujours face à de nombreux défis. Par exemple, la taille et l'orientation irrégulières des dommages, le masquage des dommages par l'arrière-plan, ainsi que la difficulté à distinguer les dommages de l'arrière-plan affectent considérablement la capacité des UAV à détecter les dommages routiers lors des inspections quotidiennes.Pour résoudre ces problèmes et améliorer les performances des UAV dans la détection en temps réel des dommages routiers, nous avons conçu et proposé trois modules correspondants : un module d'extraction de caractéristiques qui s'adapte de manière flexible à la forme et à l'arrière-plan ; un module qui fusionne la perception multi-échelle et s'adapte à la forme et à l'arrière-plan ; un module de sous-échantillonnage efficace. Sur la base de ces modules, nous avons conçu un modèle de détection multi-échelle et adaptatif des dommages routiers capable d'éliminer automatiquement les interférences de l'arrière-plan, appelé Modèle de Détection Fusionnée avec Conscience Dynamique d'Echelle (RT-DSAFDet).Les résultats expérimentaux sur le jeu de données public UAV-PDD2023 montrent que notre modèle RT-DSAFDet atteint un mAP50 de 54,2 %, soit 11,1 % de plus que celui du YOLOv10-m, une variante efficace du dernier modèle de détection d'objets en temps réel YOLOv10. De plus, le nombre de paramètres est réduit à 1,8 M et le nombre d'opérations flottantes (FLOPs) à 4,6 G, ce qui représente une diminution respective de 88 % et 93 %. En outre, sur le grand jeu de données public généralisé MS COCO2017, notre modèle montre également sa supériorité avec un mAP50-95 identique à celui du YOLOv9-t, mais avec un mAP50 supérieur de 0,5 %, un volume de paramètres inférieur de 10 % et un nombre d'opérations flottantes (FLOPs) inférieur de 40 %.