LLMs comme Ponts : Réformulation de la Reconnaissance d'Entités Nommées Multimodales Ancrées

La Reconnaissance d'Entités Nommées Multimodales Ancrées (GMNER) est une tâche multimodale émergente visant à identifier les entités nommées, leurs types et leurs régions visuelles correspondantes. La tâche GMNER présente deux propriétés défiant des défis importants : 1) La faible corrélation entre les paires image-texte sur les réseaux sociaux entraîne qu'une part significative des entités nommées ne peut être ancrée. 2) Il existe une différence entre les expressions de référence grossières couramment utilisées dans des tâches similaires (par exemple, la localisation de phrases, la compréhension des expressions de référence) et les entités nommées fines.Dans cet article, nous proposons RiVEG, un cadre unifié qui reformule GMNER en une tâche conjointe MNER-VE-VG en exploitant les grands modèles linguistiques (LLMs) comme pont de connexion. Cette reformulation apporte deux avantages : 1) Elle maintient les performances optimales de MNER et élimine le besoin d'utiliser des méthodes de détection d'objets pour préextraire des caractéristiques régionales, permettant ainsi de surmonter naturellement deux limitations majeures des méthodes GMNER existantes. 2) L'introduction d'expressions d'expansion d'entité et du module d'Entailment Visuel (VE) unifie l'Ancrage Visuel (VG) et l'Ancrage d'Entité (EG). Cela permet à RiVEG d'hériter facilement des capacités d'Entailment Visuel et d'Ancrage Visuel de tout modèle actuel ou futur de préformation multimodale.Des expériences approfondies montrent que RiVEG surpasse les méthodes de pointe sur le jeu de données GMNER existant et obtient des avances absolues de 10,65 %, 6,21 % et 8,83 % dans chacun des trois sous-tâches.