HyperAIHyperAI

Command Palette

Search for a command to run...

PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Résumé

Dans ce travail, au lieu de prédire directement les masques de segmentation au niveau des pixels, le problème de la segmentation d’image par référence est reformulé comme une génération séquentielle de polygones, dont les résultats peuvent ultérieurement être convertis en masques de segmentation. Cette approche est rendue possible par un nouveau cadre séquentiel à séquentiel, appelé Polygon Transformer (PolyFormer), qui prend en entrée une séquence de patches d’image et de jetons de requête textuelle, et produit de manière autoregressive une séquence de sommets de polygones. Pour une localisation géométrique plus précise, nous proposons un décodeur basé sur la régression, capable de prédire directement les coordonnées flottantes précises, sans aucune erreur de quantification des coordonnées. Les expériences montrent que PolyFormer surpasse clairement les méthodes antérieures, avec des améliorations absolues de 5,40 % et 4,52 % respectivement sur les jeux de données exigeants RefCOCO+ et RefCOCOg. Il démontre également une forte capacité de généralisation lorsqu’il est évalué sur la tâche de segmentation vidéo par référence sans adaptation fine, atteignant ainsi un score compétitif de 61,5 % en J&F sur le jeu de données Ref-DAVIS17.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp