GMMSeg : Modèles génératifs de segmentation sémantique basés sur les mélanges de Gaussiennes

Les solutions courantes de segmentation sémantique sont, au fond, un classificateur discriminatif dense de la forme p(class|feature du pixel). Bien que simple, ce paradigme de facto néglige la distribution de données sous-jacente p(feature du pixel|class) et peine à détecter les données hors distribution. Allant au-delà de cette approche, nous proposons GMMSeg, une nouvelle famille de modèles de segmentation reposant sur un classificateur génératif dense pour la distribution conjointe p(feature du pixel, class). Pour chaque classe, GMMSeg construit des modèles de mélanges gaussiens (GMM) via l'algorithme d'expectation-maximisation (EM), afin de capturer les densités conditionnelles par classe. Parallèlement, la représentation dense profonde est entraînée de manière end-to-end de façon discriminative, c’est-à-dire en maximisant p(class|feature du pixel). Cette architecture confère à GMMSeg les avantages des modèles génératifs et discriminatifs. Avec diverses architectures de segmentation et diverses bases (backbones), GMMSeg surpassent les modèles discriminatifs sur trois jeux de données à ensemble fermé. Plus impressionnant encore, sans aucune modification, GMMSeg se comporte également bien sur des jeux de données à monde ouvert. Nous pensons que ce travail apporte des perspectives fondamentales aux domaines connexes.