HyperAIHyperAI

Command Palette

Search for a command to run...

RpBERT : Un modèle BERT basé sur la propagation des relations texte-image pour le NER multimodal

Lin Sun* Jiquan Wang* Kai Zhang Yindu Su Fangsheng Weng

Résumé

Récemment, la reconnaissance d'entités nommées multimodale (MNER) a utilisé des images pour améliorer la précision de la reconnaissance d'entités nommées (NER) dans les tweets. Cependant, la plupart des méthodes multimodales utilisent des mécanismes d'attention pour extraire des indices visuels, sans tenir compte de la pertinence du texte et de l'image. En pratique, les paires texte-image non pertinentes représentent une grande proportion dans les tweets. Les indices visuels non liés au texte peuvent avoir des effets incertains ou même négatifs sur l'apprentissage du modèle multimodal. Dans cet article, nous introduisons une méthode de propagation des relations texte-image dans le modèle BERT multimodal. Nous intégrons des portes douces ou dures pour sélectionner les indices visuels et proposons un algorithme multitâche pour entraîner le modèle sur les ensembles de données MNER. Dans les expériences, nous analysons en profondeur les changements de l'attention visuelle avant et après l'utilisation de la propagation des relations texte-image. Notre modèle atteint des performances de pointe sur les ensembles de données MNER.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp