il y a 16 jours

Sur le biais de texture pour la segmentation CNN à faible exemple

Reza Azad, Abdur R Fayjie, Claude Kauffman, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz

Résumé

Bien que l’on croyait initialement que les réseaux de neurones convolutifs (CNN) fonctionnent principalement sur la base de formes pour accomplir des tâches de reconnaissance visuelle, des preuves récentes suggèrent que le biais textural présent dans les CNN permet d’obtenir des modèles plus performants lors de l’apprentissage sur de grandes bases de données étiquetées. Ce comportement contraste avec le biais perceptif du cortex visuel humain, qui présente une préférence plus marquée pour les composantes de forme. Ces différences perceptives pourraient expliquer pourquoi les CNN atteignent des performances au niveau humain lorsque de grandes bases d’apprentissage étiquetées sont disponibles, mais que leur performance se dégrade considérablement dans des scénarios à faible étiquetage, tels que la segmentation sémantique en peu d’exemples (few-shot segmentation). Afin de supprimer le biais textural dans le cadre de l’apprentissage en peu d’exemples, nous proposons une nouvelle architecture intégrant un ensemble de différences de Gaussiennes (Difference of Gaussians, DoG), destiné à atténuer les composantes locales à haute fréquence dans l’espace des caractéristiques. Cette opération produit un ensemble de cartes de caractéristiques modifiées, dont les composantes à haute fréquence sont réduites à différentes valeurs d’écart-type de la distribution gaussienne dans le domaine spatial. Comme cette approche génère plusieurs cartes de caractéristiques pour une même image, nous utilisons un réseau de mémoire à long et court terme convolutif bidirectionnel (bi-directional convolutional long-short-term-memory) pour fusionner efficacement les représentations multi-échelle. Nous menons des expériences approfondies sur trois benchmarks bien établis pour la segmentation en peu d’exemples — Pascal i5, COCO-20i et FSS-1000 — et démontrons que notre méthode surpasser les approches de pointe sur deux de ces bases, dans les mêmes conditions expérimentales. Le code source est disponible à l’adresse suivante : https://github.com/rezazad68/fewshot-segmentation