HyperAIHyperAI
il y a 4 mois

Réseaux de décodeurs triplement supervisés pour la détection et la segmentation conjointes

Jiale Cao; Yanwei Pang; Xuelong Li
Réseaux de décodeurs triplement supervisés pour la détection et la segmentation conjointes
Résumé

La détection d'objets conjointe et la segmentation sémantique peuvent être appliquées à de nombreux domaines, tels que les voitures autonomes et les navires de surface non pilotés. Un progrès initial et important vers cet objectif a été réalisé en partageant simplement les caractéristiques convolutives profondes pour les deux tâches. Cependant, ce schéma simple ne parvient pas à tirer pleinement parti du fait que la détection et la segmentation sont mutuellement bénéfiques. Pour surmonter cette limitation, nous proposons un cadre appelé TripleNet, où trois types de supervision, incluant une supervision orientée détection, une supervision de segmentation sémantique par classe et une supervision de segmentation sans distinction des classes, sont imposés à chaque couche du réseau décodeur. La supervision de segmentation sans distinction des classes fournit une connaissance préalable de l'objectivité pour la segmentation sémantique et la détection d'objets. En plus des trois types de supervision, deux modules légers (à savoir le module interconnecté et la fusion d'attention entre couches) sont également intégrés dans chaque couche du décodeur. Dans le cadre proposé, la détection et la segmentation peuvent se renforcer mutuellement de manière suffisante. De plus, la segmentation sans distinction des classes et la segmentation par classe à chaque couche du décodeur ne sont pas effectuées lors de l'étape de test. Par conséquent, aucun coût computationnel supplémentaire n'est introduit lors de l'étape de test. Les résultats expérimentaux sur les jeux de données VOC2007 et VOC2012 montrent que le TripleNet proposé est capable d'améliorer les précisions de détection et de segmentation sans ajouter de coûts computationnels supplémentaires.