SOLQ : Segmenter des objets en apprenant des requêtes

Dans cet article, nous proposons un cadre end-to-end pour la segmentation d'instances. Inspiré du modèle récemment introduit DETR [1], notre méthode, nommée SOLQ, segmente les objets en apprenant des requêtes unifiées. Dans SOLQ, chaque requête représente un objet et possède plusieurs représentations : classe, localisation et masque. Les requêtes d'objets apprises effectuent simultanément la classification, la régression de boîtes englobantes et le codage de masques sous une forme vectorielle unifiée. Pendant la phase d'entraînement, les vecteurs de masques codés sont supervisés par le codage par compression des masques spatiaux bruts. Lors de l'inférence, les vecteurs de masques générés peuvent être directement transformés en masques spatiaux grâce au processus inverse du codage par compression. Les résultats expérimentaux montrent que SOLQ atteint des performances de pointe, dépassant la plupart des approches existantes. De plus, l'apprentissage conjoint de la représentation unifiée des requêtes améliore considérablement les performances de détection de DETR. Nous espérons que SOLQ pourra servir de base solide pour la segmentation d'instances basée sur les Transformers. Le code est disponible à l'adresse suivante : https://github.com/megvii-research/SOLQ.