HyperAIHyperAI

Command Palette

Search for a command to run...

Réseau d'inférence de relation bidirectionnelle pour la segmentation d'image par référence

Huchuan Lu Lihe Zhang Jiayu Sun Guang Feng Zhiwei Hu

Résumé

La plupart des méthodes existantes ne formulent pas explicitement l’interaction mutuelle entre la vision et le langage. Dans ce travail, nous proposons un réseau d’inférence de relation bidirectionnelle (BRINet) afin de modéliser les dépendances entre les informations multimodales. Plus précisément, l’attention linguistique guidée par la vision permet d’apprendre un contexte linguistique adaptatif correspondant à chaque région visuelle. En combinant cette attention visuelle guidée par le langage, nous construisons un module d’attention cross-modale bidirectionnelle (BCAM) pour capturer les relations entre les caractéristiques multimodales. Ainsi, le contexte sémantique final de l’objet cible et de l’expression de référence peut être représenté de manière précise et cohérente. En outre, un module de fusion bidirectionnelle à porte (GBFM) est conçu pour intégrer les caractéristiques de plusieurs niveaux, où une fonction de porte permet de guider le flux bidirectionnel des informations de différents niveaux. Des expériences étendues sur quatre jeux de données de référence démontrent que la méthode proposée surpasser les autres approches de pointe dans diverses métriques d’évaluation.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseau d'inférence de relation bidirectionnelle pour la segmentation d'image par référence | Articles | HyperAI