Ensemble séquentiel pour la segmentation sémantique

Les approches par ensemble pour la segmentation sémantique basée sur les réseaux de neurones profonds restent insuffisamment explorées malgré la multiplication des benchmarks compétitifs et des applications descendantes. Dans ce travail, nous explorons et benchmarkons l'approche populaire d'ensemblage consistant à combiner les prédictions de plusieurs modèles d'état de l'art, entraînés indépendamment, au moment de l'évaluation sur des jeux de données courants. En outre, nous proposons une nouvelle méthode inspirée du boosting, permettant d'ensemblage séquentiel de réseaux, qui surpasse significativement le modèle de base par simple ensemblage. Notre approche entraîne une cascade de modèles dont les entrées incluent, en plus des données d'entrée initiales, les probabilités de classes prédites par le modèle précédent. Un avantage clé de cette méthode réside dans sa capacité à permettre un délestage dynamique du calcul, facilitant ainsi le déploiement sur des dispositifs mobiles. Le bloc novateur que nous proposons, appelé ADaptive modulatiON (ADON), permet une modulation des caractéristiques spatiales à diverses couches à l’aide des probabilités issues de l’étape précédente. Contrairement à certaines approches, notre méthode ne nécessite pas de stratégies sophistiquées de sélection d’échantillons pendant l’entraînement et est compatible avec plusieurs architectures de réseaux neuronaux. Nous obtenons des améliorations significatives par rapport au modèle de base par ensemblage sur des jeux de données exigeants tels que Cityscapes, ADE-20K, COCO-Stuff et PASCAL-Context, établissant ainsi un nouveau record d’état de l’art.