HyperAIHyperAI
il y a 11 jours

Interactions multi-modales complètes pour la segmentation d’images par référence

Kanishk Jain, Vineet Gandhi
Interactions multi-modales complètes pour la segmentation d’images par référence
Résumé

Nous étudions la segmentation d’images par référence (RIS), qui consiste à produire une carte de segmentation correspondant à une description en langage naturel. Une résolution efficace du RIS nécessite de prendre en compte les interactions entre les modalités visuelle et linguistique, ainsi que les interactions au sein de chaque modalité. Les méthodes existantes présentent des limites, car elles calculent les différentes formes d’interactions de manière séquentielle (ce qui entraîne une propagation d’erreurs) ou ignorent complètement les interactions intramodales. Pour surmonter cette limitation, nous proposons d’effectuer simultanément les trois types d’interactions grâce à un module de fusion multi-modale synchrone (SFM). Par ailleurs, afin d’obtenir des masques de segmentation plus précis, nous introduisons un nouveau module hiérarchique d’agrégation cross-modale (HCAM), dans lequel les caractéristiques linguistiques facilitent l’échange d’informations contextuelles à travers la hiérarchie visuelle. Nous menons des études d’ablation approfondies et validons la performance de notre approche sur quatre jeux de données standard, démontrant des gains significatifs par rapport aux méthodes d’état de l’art (SOTA) existantes.

Interactions multi-modales complètes pour la segmentation d’images par référence | Articles de recherche récents | HyperAI