SuperYOLO : Détection d'objets assistée par super-résolution dans les images télescopiques multimodales

La détection précise et en temps réel d’objets petits à plusieurs échelles, contenant seulement quelques dizaines de pixels, dans les images satellites (RSI), demeure un défi majeur. La plupart des solutions existantes conçoivent des réseaux neuronaux profonds complexes afin d’apprendre des représentations de caractéristiques puissantes pour distinguer les objets du fond, ce qui entraîne souvent un fardeau computationnel élevé. Dans cet article, nous proposons une méthode de détection d’objets précise et rapide pour les RSI, nommée SuperYOLO, qui fusionne des données multimodales et réalise une détection à haute résolution (HR) sur des objets à plusieurs échelles en exploitant un apprentissage assisté par super-résolution (SR), tout en prenant en compte à la fois la précision de détection et le coût computationnel. Premièrement, nous utilisons une fusion multimodale compacte et symétrique (MF) pour extraire des informations complémentaires à partir de différentes sources de données, afin d’améliorer la détection des petits objets dans les RSI. Ensuite, nous concevons une branche de super-résolution (SR) simple et flexible, capable d’apprendre des représentations de caractéristiques à haute résolution à partir d’entrées à faible résolution (LR), permettant ainsi de mieux distinguer les petits objets du fond étendu, ce qui améliore davantage la précision de détection. Par ailleurs, pour éviter tout surcroît computationnel, la branche SR est éliminée lors de l’étape d’inférence, réduisant ainsi le coût computationnel global du modèle grâce à l’entrée à faible résolution. Les résultats expérimentaux montrent que, sur le jeu de données RSI VEDAI largement utilisé, SuperYOLO atteint une précision de 75,09 % (en termes de mAP50), soit plus de 10 % de mieux que les meilleurs modèles actuels de grande taille tels que YOLOv5l, YOLOv5x et YOLOrs conçu spécifiquement pour les RSI. En outre, la taille des paramètres et les GFLOPs de SuperYOLO sont respectivement environ 18 et 3,8 fois inférieurs à ceux de YOLOv5x. Notre modèle proposé offre un compromis avantageux entre précision et vitesse par rapport aux états de l’art. Le code source sera mis à disposition sur GitHub à l’adresse suivante : https://github.com/icey-zhang/SuperYOLO.