EL-GAN : Réseaux de Génération Adversariaux Guidés par la Perte d'Embedding pour la Détection de Voies

Les réseaux de neurones convolutifs ont été appliqués avec succès à des problèmes de segmentation sémantique. Cependant, il existe de nombreux problèmes qui ne sont pas fondamentalement des problèmes de classification pixel par pixel mais qui sont néanmoins fréquemment formulés comme tels en termes de segmentation sémantique. Cette formulation mal posée nécessite par conséquent l'utilisation de méthodes de post-traitement spécifiques à chaque scénario et coûteuses en calcul pour convertir les cartes de probabilité par pixel en sorties finales souhaitées. Les réseaux adversariaux génératifs (GANs) peuvent être utilisés pour rendre la sortie du réseau de segmentation sémantique plus réaliste ou mieux préservant la structure, réduisant ainsi la dépendance aux méthodes de post-traitement potentiellement complexes. Dans ce travail, nous proposons EL-GAN : un cadre GAN visant à atténuer le problème discuté en utilisant une perte d'embedding. Avec EL-GAN, nous discriminons simultanément sur la base des embeddings appris des étiquettes et des prédictions. Ceci entraîne une formation plus stable grâce à une meilleure information discriminante, bénéficiant de la visualisation simultanée des prédictions « fausses » et « réelles ». Cela stabilise considérablement le processus d'entraînement adversarial. Nous utilisons le défi TuSimple pour marquage de voies pour démontrer que notre cadre proposé permet de surmonter les anomalies inhérentes à la formulation d'un problème comme celui de la segmentation sémantique. Non seulement la sortie est considérablement plus similaire aux étiquettes lorsque comparée aux méthodes conventionnelles, mais le post-traitement subséquent est également plus simple et franchit le seuil compétitif de 96 % d'exactitude.