Masque Transfiner pour une segmentation d'instances de haute qualité

Les méthodes de segmentation d’instances à deux étapes et basées sur des requêtes ont obtenu des résultats remarquables. Toutefois, les masques segmentés restent encore très grossiers. Dans cet article, nous présentons Mask Transfiner, une approche pour une segmentation d’instances de haute qualité et efficace. Contrairement aux méthodes classiques qui opèrent sur des tenseurs denses réguliers, notre Mask Transfiner décompose et représente les régions d’image sous forme d’un arbre quadrique. Notre approche basée sur un transformer ne traite que les nœuds d’arbre susceptibles d’erreurs, qu’elle corrige de manière autonome et en parallèle. Bien que ces pixels creux ne représentent qu’une faible proportion du nombre total de pixels, ils sont cruciaux pour la qualité finale des masques. Cela permet à Mask Transfiner de prédire des masques d’instances hautement précis, à un coût computationnel faible. Des expériences étendues montrent que Mask Transfiner surpasse les méthodes actuelles de segmentation d’instances sur trois benchmarks populaires, améliorant significativement à la fois les cadres à deux étapes et ceux basés sur des requêtes, avec une augmentation de +3,0 AP masque sur COCO et BDD100K, ainsi que de +6,6 AP frontière sur Cityscapes. Notre code source et les modèles entraînés seront disponibles à l’adresse http://vis.xyz/pub/transfiner.