HyperAIHyperAI

Command Palette

Search for a command to run...

MaIL : Un réseau trimodal unifié masque-image-langage pour la segmentation d'images par référence

Zizhang Li Mengmeng Wang Jianbiao Mei Yong Liu

Résumé

La segmentation d’image par référence est une tâche typique multimodale, visant à générer un masque binaire correspondant à un objet décrit par une expression linguistique donnée. Les approches antérieures adoptent une solution bimodale, traitant les images et les langues comme deux modalités au sein d’un pipeline encodeur-fusion-décodeur. Toutefois, ce pipeline s’avère sous-optimisé pour la tâche cible pour deux raisons principales. Premièrement, elles ne fusionnent que des caractéristiques de haut niveau produites séparément par des encodeurs unimodaux, ce qui limite l’apprentissage croisémolal efficace. Deuxièmement, les encodeurs unimodaux sont pré-entraînés indépendamment, ce qui entraîne une incohérence entre les tâches unimodales de pré-entraînement et la tâche multimodale cible. En outre, ce pipeline ignore souvent ou utilise très peu les caractéristiques de niveau d’instance, qui sont pourtant intuitivement bénéfiques. Pour atténuer ces limitations, nous proposons MaIL, un pipeline encodeur-décodeur plus concis intégrant un encodeur trimodal Masque-Image-Langage. Plus précisément, MaIL unifie les extracteurs de caractéristiques unimodales et leur modèle de fusion en un encodeur profond d’interaction multimodale, favorisant une interaction suffisante entre les différentes modalités. Par ailleurs, MaIL élimine directement la deuxième limitation, puisqu’il ne nécessite plus d’encodeurs unimodaux. En outre, pour la première fois, nous proposons d’introduire les masques d’instance comme une modalité supplémentaire, ce qui intensifie explicitement les caractéristiques de niveau d’instance et améliore la précision de segmentation. Le modèle MaIL établit un nouveau record sur tous les jeux de données fréquemment utilisés pour la segmentation d’image par référence, notamment RefCOCO, RefCOCO+ et G-Ref, avec des gains significatifs de 3 à 10 % par rapport aux meilleures méthodes précédentes. Le code sera bientôt publié.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp