il y a 6 mois

Résumé

Dans ce travail, au lieu de prédire directement les masques de segmentation au niveau des pixels, le problème de la segmentation d’image par référence est reformulé comme une génération séquentielle de polygones, dont les résultats peuvent ultérieurement être convertis en masques de segmentation. Cette approche est rendue possible par un nouveau cadre séquentiel à séquentiel, appelé Polygon Transformer (PolyFormer), qui prend en entrée une séquence de patches d’image et de jetons de requête textuelle, et produit de manière autoregressive une séquence de sommets de polygones. Pour une localisation géométrique plus précise, nous proposons un décodeur basé sur la régression, capable de prédire directement les coordonnées flottantes précises, sans aucune erreur de quantification des coordonnées. Les expériences montrent que PolyFormer surpasse clairement les méthodes antérieures, avec des améliorations absolues de 5,40 % et 4,52 % respectivement sur les jeux de données exigeants RefCOCO+ et RefCOCOg. Il démontre également une forte capacité de généralisation lorsqu’il est évalué sur la tâche de segmentation vidéo par référence sans adaptation fine, atteignant ainsi un score compétitif de 61,5 % en J&F sur le jeu de données Ref-DAVIS17.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Segmentation D'images

Multimodal

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Segmentation D'images

Multimodal

Vision Par Ordinateur

Multimodal

Vision Par Ordinateur

Tâche

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PolyFormer : la segmentation d’image par référence comme génération séquentielle de polygones

Jiang Liu Hui Ding Zhaowei Cai Yuting Zhang Ravi Kumar Satzoda Vijay Mahadevan R. Manmatha

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters