HyperAIHyperAI

Command Palette

Search for a command to run...

M3TR : Reconnaissance multi-modale multi-étiquette basée sur le Transformer

Jia Li Yifan Zhao Jiawei Zhao

Résumé

La reconnaissance d'images à plusieurs étiquettes vise à identifier simultanément plusieurs objets au sein d'une même image. Les approches récentes pour résoudre ce problème se sont concentrées sur l'apprentissage des dépendances entre les co-occurrences d'étiquettes afin d'améliorer les représentations sémantiques de haut niveau. Toutefois, ces méthodes négligent souvent les relations essentielles entre les structures visuelles intrinsèques et rencontrent des difficultés à comprendre les relations contextuelles. Afin de construire un cadre global de contexte visuel ainsi que des interactions entre les modalités visuelle et linguistique, nous proposons le modèle M3TR (Multi-Modal Multi-label recognition TRansformers), basé sur un apprentissage des relations ternaires entre et au sein des modalités. Pour modéliser les relations intra-modalités, nous proposons une synergie innovante entre les réseaux de neurones convolutifs (CNN) et les Transformers, permettant d'intégrer les structures visuelles dans les caractéristiques de haut niveau grâce à un apprentissage de l'attention sémantique croisée. Pour établir les interactions entre les modalités visuelle et linguistique, nous introduisons une attention linguistique croisée, qui incorpore des informations linguistiques par classe dans le processus d'apprentissage des structures visuelles. Enfin, nous proposons un module d'amélioration guidé par le langage, destiné à renforcer les représentations sémantiques de haut niveau. Les résultats expérimentaux démontrent que, grâce à l'apprentissage collaboratif des relations ternaires, notre modèle M3TR atteint un nouveau record sur deux benchmarks publics de reconnaissance multi-étiquettes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp