HyperAIHyperAI
il y a 11 jours

PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones

Jiang Liu, Hui Ding, Zhaowei Cai, Yuting Zhang, Ravi Kumar Satzoda, Vijay Mahadevan, R. Manmatha
PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones
Résumé

Dans ce travail, au lieu de prédire directement les masques de segmentation au niveau des pixels, le problème de la segmentation d’image par référence est reformulé comme une génération séquentielle de polygones, dont les résultats peuvent ultérieurement être convertis en masques de segmentation. Cette approche est rendue possible par un nouveau cadre séquentiel à séquentiel, appelé Polygon Transformer (PolyFormer), qui prend en entrée une séquence de patches d’image et de jetons de requête textuelle, et produit de manière autoregressive une séquence de sommets de polygones. Pour une localisation géométrique plus précise, nous proposons un décodeur basé sur la régression, capable de prédire directement les coordonnées flottantes précises, sans aucune erreur de quantification des coordonnées. Les expériences montrent que PolyFormer surpasse clairement les méthodes antérieures, avec des améliorations absolues de 5,40 % et 4,52 % respectivement sur les jeux de données exigeants RefCOCO+ et RefCOCOg. Il démontre également une forte capacité de généralisation lorsqu’il est évalué sur la tâche de segmentation vidéo par référence sans adaptation fine, atteignant ainsi un score compétitif de 61,5 % en J&F sur le jeu de données Ref-DAVIS17.

PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones | Articles de recherche récents | HyperAI