Réseaux antagonistes génératifs multi-tâches sensibles à l'éclairage pour la segmentation du premier plan
La segmentation fondamental-arrière-plan a fait l’objet de recherches actives au fil des années. Toutefois, les modèles classiques échouent à produire des résultats précis lorsqu’ils sont confrontés à des vidéos présentant des conditions d’éclairage difficiles. Dans cet article, nous proposons un modèle robuste permettant d’extraire avec précision la région avant même dans des scènes exceptionnellement sombres ou lumineuses, ainsi que dans des séquences vidéo où l’éclairage varie continuellement. Cette performance est atteinte grâce à un réseau génératif adversarial à trois tâches (TMT-GAN), qui modélise efficacement les relations sémantiques entre les images sombres et lumineuses, tout en réalisant la segmentation binaire de manière end-to-end. Notre contribution est double : premièrement, nous démontrons qu’en optimisant conjointement la perte du GAN et la perte de segmentation, notre réseau apprend simultanément les deux tâches, qui s’entraident mutuellement. Deuxièmement, la fusion des caractéristiques d’images soumises à des éclairages variables dans la branche de segmentation améliore considérablement les performances du réseau. Des évaluations comparatives sur des jeux de données de référence réels et synthétiques particulièrement exigeants (ESI et SABS) démontrent la robustesse du TMT-GAN et son avantage par rapport aux approches les plus récentes.