Command Palette
Search for a command to run...
F3Net : Fusion, Rétroaction et Focalisation pour la Détection d'Objets Saliants
F3Net : Fusion, Rétroaction et Focalisation pour la Détection d'Objets Saliants
Jun Wei Shuhui Wang Qingming Huang
Résumé
La plupart des modèles de détection d'objets saillants existants ont connu de grands progrès en agrégant les caractéristiques extraites à différents niveaux des réseaux neuronaux convolutifs. Cependant, en raison des champs récepteurs différents des différentes couches convolutives, il existe de grandes différences entre les caractéristiques générées par ces couches. Les stratégies courantes de fusion de caractéristiques (addition ou concaténation) ignorent ces différences et peuvent entraîner des solutions sous-optimales. Dans cet article, nous proposons le F3Net pour résoudre ce problème. Ce modèle se compose principalement d'un module de caractéristiques croisées (Cross Feature Module, CFM) et d'un décodeur à rétroaction en cascade (Cascaded Feedback Decoder, CFD), formés en minimisant une nouvelle perte sensible à la position des pixels (Pixel Position Aware Loss, PPA).Plus précisément, le CFM vise à agréger sélectivement les caractéristiques multi-niveaux. Contrairement à l'addition et à la concaténation, le CFM sélectionne de manière adaptative les composantes complémentaires des caractéristiques d'entrée avant leur fusion, ce qui permet d'éviter efficacement l'introduction d'une quantité excessive d'informations redondantes susceptibles de perturber les caractéristiques originales. De plus, le CFD adopte un mécanisme de rétroaction multi-étapes, où les caractéristiques proches de la supervision seront introduites dans la sortie des couches précédentes pour les compléter et éliminer les différences entre les caractéristiques. Ces caractéristiques raffinées subiront plusieurs itérations similaires avant la génération des cartes de saillance finales.En outre, contrairement à l'entropie croisée binaire, la perte PPA proposée ne traite pas tous les pixels de manière égale. Elle peut synthétiser l'information structurelle locale d'un pixel pour guider le réseau à se concentrer davantage sur les détails locaux. Les pixels difficiles provenant des contours ou des parties sujettes aux erreurs recevront une attention accrue afin de souligner leur importance.Le F3Net est capable de segmenter avec précision les régions d'objets saillants et de fournir des détails locaux clairs. Des expériences exhaustives menées sur cinq jeux de données基准数据集 (benchmark datasets) montrent que le F3Net surpassent les approches state-of-the-art sur six métriques d'évaluation.Note: "基准数据集" est traduit ici par "jeux de données benchmark" pour respecter le contexte technologique et académique du texte original.