RpBERT : Un modèle BERT basé sur la propagation des relations texte-image pour le NER multimodal

Récemment, la reconnaissance d'entités nommées multimodale (MNER) a utilisé des images pour améliorer la précision de la reconnaissance d'entités nommées (NER) dans les tweets. Cependant, la plupart des méthodes multimodales utilisent des mécanismes d'attention pour extraire des indices visuels, sans tenir compte de la pertinence du texte et de l'image. En pratique, les paires texte-image non pertinentes représentent une grande proportion dans les tweets. Les indices visuels non liés au texte peuvent avoir des effets incertains ou même négatifs sur l'apprentissage du modèle multimodal. Dans cet article, nous introduisons une méthode de propagation des relations texte-image dans le modèle BERT multimodal. Nous intégrons des portes douces ou dures pour sélectionner les indices visuels et proposons un algorithme multitâche pour entraîner le modèle sur les ensembles de données MNER. Dans les expériences, nous analysons en profondeur les changements de l'attention visuelle avant et après l'utilisation de la propagation des relations texte-image. Notre modèle atteint des performances de pointe sur les ensembles de données MNER.