PolyMaX : Prédiction dense générale avec le Mask Transformer

Les tâches de prédiction dense, telles que la segmentation sémantique, l'estimation de profondeur et la prédiction des normales de surface, peuvent être facilement formulées comme des tâches de classification par pixel (sorties discrètes) ou de régression (sorties continues). Ce paradigme de prédiction par pixel est resté populaire en raison de la prévalence des réseaux entièrement convolutifs. Cependant, sur le front récent des tâches de segmentation, la communauté a observé un changement de paradigme, passant d'une prédiction par pixel à une prédiction par cluster avec l'émergence des architectures basées sur les transformateurs, en particulier les masque-transformateurs (mask transformers), qui prédise directement une étiquette pour un masque plutôt que pour un pixel. Malgré ce changement, les méthodes fondées sur le paradigme de prédiction par pixel dominent toujours les benchmarks pour les autres tâches de prédiction dense nécessitant des sorties continues, telles que l'estimation de profondeur et la prédiction des normales de surface. Inspirés par le succès du DORN et d'AdaBins dans l'estimation de profondeur, obtenus grâce à la discrétisation de l'espace de sortie continu, nous proposons d'étendre la méthode basée sur la prédiction par cluster aux tâches de prédiction dense générales. Ceci nous permet d'unifier les tâches de prédiction dense dans le cadre des masque-transformateurs. Remarquablement, le modèle résultant PolyMaX montre des performances d'état de l'art sur trois benchmarks du jeu de données NYUD-v2. Nous espérons que notre conception simple mais efficace inspirera davantage de recherches visant à exploiter les masque-transformateurs pour plus de tâches de prédiction dense. Le code et le modèle seront mis à disposition.