HyperAIHyperAI

Command Palette

Search for a command to run...

SafaRi : Transformers d' séquence adaptatifs pour la segmentation d'expressions de référence faiblement supervisée

Sayan Nag extsuperscript1,2 extsuperscript* Koustava Goswami extsuperscript2 Srikrishna Karanam extsuperscript2

Résumé

La segmentation d'expressions de référence (RES) vise à fournir un masque de segmentation de l'objet cible dans une image décrite par le texte (c'est-à-dire, l'expression de référence). Les méthodes existantes nécessitent des annotations de masques à grande échelle. De plus, ces approches ne généralisent pas bien aux scénarios inédits ou à zéro tirage. Pour résoudre les problèmes mentionnés, nous proposons une architecture d'apprentissage faiblement supervisé pour la RES avec plusieurs nouvelles innovations algorithmiques. À notre connaissance, c'est la première approche qui n'utilise qu'une fraction des annotations de masques et de boîtes (illustrées dans la Figure 1 et le Tableau 1) pour l'entraînement. Pour permettre une formation rigoureuse des modèles dans ces conditions d'annotations limitées, améliorer l'alignement régional entre l'image et le texte, et renforcer encore davantage la localisation spatiale de l'objet cible dans l'image, nous proposons un module de fusion intermodale avec cohérence d'attention. Pour l'étiquetage pseudo-automatique des échantillons non étiquetés, nous introduisons une nouvelle routine de filtrage de validité des masques basée sur une approche de notation propositionnelle à zéro tirage prenant en compte la localisation spatiale. Des expériences exhaustives montrent que, avec seulement 30% des annotations, notre modèle SafaRi atteint des mIoUs de 59,31 et 48,26 respectivement sur les jeux de données RefCOCO+@testA et RefCOCO+testB, comparativement aux mIoUs de 58,93 et 48,19 obtenus par la méthode SOTA entièrement supervisée SeqTR. SafaRi surpass également SeqTR respectivement de 11,7% (sur RefCOCO+testA) et 19,6% (sur RefCOCO+testB) dans un cadre entièrement supervisé et démontre une forte capacité de généralisation pour les tâches inédites ou à zéro tirage.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp