DHSNet : Réseau hiérarchique profond de saliency pour la détection d'objets saillants

Les modèles traditionnels de détection d'objets saillants utilisent souvent des caractéristiques conçues manuellement afin de formuler des contrastes et d'intégrer diverses connaissances a priori, puis combinent ces éléments de manière artificielle. Dans ce travail, nous proposons un nouveau réseau hiérarchique profond end-to-end (DHSNet), basé sur les réseaux de neurones convolutifs, pour la détection d'objets saillants. DHSNet effectue d'abord une prédiction globale grossière en apprenant automatiquement diverses indications structurées globales de saillance, telles que le contraste global, l’objectivité, la compacité, ainsi que leur combinaison optimale. Ensuite, un nouveau réseau convolutif récurrent hiérarchique (HRCNN) est adopté pour affiner progressivement et hiérarchiquement les détails des cartes de saillance étape par étape, en intégrant des informations contextuelles locales. L'architecture globale fonctionne selon une approche du global au local, et du grossier au fin. DHSNet est directement entraîné à partir d'images entières et de masques de saillance correspondants comme vérité terrain. Lors de l'évaluation, les cartes de saillance peuvent être générées de manière directe et efficace en alimentant simplement les images de test dans le réseau, sans nécessiter d'autres techniques. Des évaluations sur quatre jeux de données de référence, ainsi que des comparaisons avec 11 algorithmes de pointe, démontrent que DHSNet non seulement présente une supériorité significative en termes de performance, mais atteint également une vitesse en temps réel de 23 FPS sur les GPU modernes.