SCAResNet : Une Variante de ResNet Optimisée pour la Détection d'Objets Miniatures dans les Tours de Transport et de Distribution

Les réseaux de détection d'objets basés sur l'apprentissage profond traditionnel redimensionnent souvent les images lors de l'étape de prétraitement des données pour obtenir une taille et une échelle uniformes dans la carte de caractéristiques. Ce redimensionnement est effectué pour faciliter la propagation du modèle et la classification par les couches entièrement connectées. Cependant, le redimensionnement entraîne inévitablement une déformation des objets et une perte d'informations précieuses dans les images. Cette faiblesse devient particulièrement évidente pour les petits objets tels que les pylônes de distribution, qui ont des formes linéaires et peu de pixels. Pour remédier à ce problème, nous proposons d'abandonner l'opération de redimensionnement. À la place, nous introduisons l'Attention Multi-têtes avec Encodage Positionnel en Croix (Positional-Encoding Multi-head Criss-Cross Attention). Cela permet au modèle de capturer des informations contextuelles et d'apprendre à partir de plusieurs sous-espaces de représentation, enrichissant ainsi efficacement la sémantique des pylônes de distribution. De plus, nous améliorons le Pooling Pyramidal Spatial en reformant trois cartes de caractéristiques regroupées en une nouvelle carte unifiée tout en réduisant la charge computationnelle. Cette approche permet aux images de différentes tailles et échelles de générer des cartes de caractéristiques ayant des dimensions uniformes et peut être utilisée dans la propagation des cartes de caractéristiques. Notre SCAResNet intègre ces améliorations mentionnées précédemment dans le réseau principal ResNet. Nous avons évalué notre SCAResNet en utilisant le jeu de données d'imagerie des infrastructures électriques de transport et de distribution provenant de Duke University. Sans recourir à aucune technique supplémentaire, nous avons utilisé divers modèles de détection d'objets avec l'affectation d'étiquettes basée sur le Champ Récepteur Gaussien comme référence. Lorsque nous avons intégré notre SCAResNet au modèle référence, nous avons obtenu une amélioration de 2,1 % en termes de mAPs (mean Average Precision). Ceci démontre les avantages de notre SCAResNet pour détecter les pylônes de transport et de distribution ainsi que sa valeur pour la détection d'objets minuscules. Le code source est disponible à l'adresse suivante : https://github.com/LisavilaLee/SCAResNet_mmdet.