CASENet : Détection sémantique profonde des contours catégoriels

Les indices de contour et de bord sont extrêmement bénéfiques pour améliorer une grande variété de tâches en vision par ordinateur, telles que la segmentation sémantique, la reconnaissance d'objets, la stéréoscopie et la génération de propositions d'objets. Récemment, le problème de détection des bords a été réexaminé et des progrès significatifs ont été réalisés grâce à l'apprentissage profond. Bien que la détection classique des bords soit un problème binaire difficile en soi, la détection sémantique des bords avec prise en compte des catégories est naturellement un problème multiclasse encore plus complexe. Nous modélisons ce problème de manière à ce que chaque pixel de bord puisse être associé à plus d'une classe, car ils apparaissent dans des contours ou des jonctions appartenant à deux ou plusieurs classes sémantiques. À cette fin, nous proposons une nouvelle architecture d'apprentissage profond sémantique des bords, basée sur ResNet et une nouvelle architecture de couches sauteuses où les activations de bord par catégorie au niveau de la couche convolutive supérieure partagent et fusionnent les mêmes caractéristiques de la couche inférieure. Nous proposons ensuite une fonction de perte multiclasse pour superviser ces activations fusionnées. Nous montrons que notre architecture proposée apporte une meilleure performance à ce problème, et que nous surpassons largement les méthodes actuelles d'état de l'art en détection sémantique des bords sur des jeux de données standards tels que SBD (Semantic Boundaries Dataset) et Cityscapes.