BiMaL : Approche à maximum de vraisemblance bijective pour l'adaptation de domaine en segmentation sémantique de scène

La segmentation sémantique vise à prédire des étiquettes au niveau des pixels. Elle est devenue une tâche populaire dans diverses applications de vision par ordinateur. Bien que les méthodes de segmentation entièrement supervisées aient atteint une haute précision sur de grandes bases de données visuelles, elles peinent à généraliser efficacement dans de nouveaux environnements de test ou sur de nouveaux domaines. Dans ce travail, nous introduisons tout d’abord un nouveau score de domaine non aligné (Un-aligned Domain Score) afin de mesurer, de manière non supervisée, l’efficacité d’un modèle appris sur un nouveau domaine cible. Ensuite, nous proposons une nouvelle fonction de perte, appelée Bijective Maximum Likelihood (BiMaL), qui constitue une forme généralisée de la minimisation de l’entropie adversaire, sans aucune hypothèse sur l’indépendance des pixels. Nous avons évalué la méthode BiMaL proposée sur deux domaines. Les expériences empiriques montrent que la méthode BiMaL propose un meilleur résultat que les méthodes de l’état de l’art sur les configurations « SYNTHIA vers Cityscapes », « GTA5 vers Cityscapes » et « SYNTHIA vers Vistas ».