M$^3$Net : Réseau d'attention multiniveau, mixte et multistade pour la détection d'objets saillants

La plupart des méthodes actuelles de détection d'objets saillants utilisent principalement l'architecture U-Net ou la structure de pyramide de caractéristiques, qui agglomèrent simplement les cartes de caractéristiques à différentes échelles, ignorant leur singularité et interdépendance ainsi que leurs contributions respectives à la prédiction finale. Pour surmonter ces limitations, nous proposons le M$^3$Net, c'est-à-dire le réseau d'attention multiniveau, mixte et multistade pour la détection d'objets saillants (SOD). Tout d'abord, nous introduisons le bloc d'interaction multiscale qui innove en intégrant une approche d'attention croisée pour réaliser l'interaction entre les caractéristiques multiniveau, permettant aux caractéristiques de haut niveau de guider l'apprentissage des caractéristiques de bas niveau et ainsi d'améliorer les régions saillantes. Deuxièmement, étant donné que les méthodes SOD basées sur les Transformers précédentes ne localisent les régions saillantes qu'à l'aide de l'auto-attention globale tout en négligeant inévitablement les détails des objets complexes, nous proposons le bloc d'attention mixte. Ce bloc combine l'auto-attention globale et l'auto-attention par fenêtre, visant à modéliser le contexte à la fois au niveau global et local afin d'améliorer encore la précision de la carte de prédiction. Enfin, nous avons élaboré une stratégie de supervision multiniveau pour optimiser progressivement les étapes d'agrégation des caractéristiques. Les expériences menées sur six jeux de données difficiles montrent que le M$^3$Net proposé dépasse les méthodes récentes basées sur les CNN et les Transformers en termes de quatre métriques. Le code source est disponible à l'adresse suivante : https://github.com/I2-Multimedia-Lab/M3Net.