HyperAIHyperAI

Command Palette

Search for a command to run...

Interactions multi-modales complètes pour la segmentation d’images par référence

Kanishk Jain Vineet Gandhi

Résumé

Nous étudions la segmentation d’images par référence (RIS), qui consiste à produire une carte de segmentation correspondant à une description en langage naturel. Une résolution efficace du RIS nécessite de prendre en compte les interactions entre les modalités visuelle et linguistique, ainsi que les interactions au sein de chaque modalité. Les méthodes existantes présentent des limites, car elles calculent les différentes formes d’interactions de manière séquentielle (ce qui entraîne une propagation d’erreurs) ou ignorent complètement les interactions intramodales. Pour surmonter cette limitation, nous proposons d’effectuer simultanément les trois types d’interactions grâce à un module de fusion multi-modale synchrone (SFM). Par ailleurs, afin d’obtenir des masques de segmentation plus précis, nous introduisons un nouveau module hiérarchique d’agrégation cross-modale (HCAM), dans lequel les caractéristiques linguistiques facilitent l’échange d’informations contextuelles à travers la hiérarchie visuelle. Nous menons des études d’ablation approfondies et validons la performance de notre approche sur quatre jeux de données standard, démontrant des gains significatifs par rapport aux méthodes d’état de l’art (SOTA) existantes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp