HyperAIHyperAI

Command Palette

Search for a command to run...

LLMs comme Ponts : Réformulation de la Reconnaissance d'Entités Nommées Multimodales Ancrées

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Résumé

La Reconnaissance d'Entités Nommées Multimodales Ancrées (GMNER) est une tâche multimodale émergente visant à identifier les entités nommées, leurs types et leurs régions visuelles correspondantes. La tâche GMNER présente deux propriétés défiant des défis importants : 1) La faible corrélation entre les paires image-texte sur les réseaux sociaux entraîne qu'une part significative des entités nommées ne peut être ancrée. 2) Il existe une différence entre les expressions de référence grossières couramment utilisées dans des tâches similaires (par exemple, la localisation de phrases, la compréhension des expressions de référence) et les entités nommées fines.Dans cet article, nous proposons RiVEG, un cadre unifié qui reformule GMNER en une tâche conjointe MNER-VE-VG en exploitant les grands modèles linguistiques (LLMs) comme pont de connexion. Cette reformulation apporte deux avantages : 1) Elle maintient les performances optimales de MNER et élimine le besoin d'utiliser des méthodes de détection d'objets pour préextraire des caractéristiques régionales, permettant ainsi de surmonter naturellement deux limitations majeures des méthodes GMNER existantes. 2) L'introduction d'expressions d'expansion d'entité et du module d'Entailment Visuel (VE) unifie l'Ancrage Visuel (VG) et l'Ancrage d'Entité (EG). Cela permet à RiVEG d'hériter facilement des capacités d'Entailment Visuel et d'Ancrage Visuel de tout modèle actuel ou futur de préformation multimodale.Des expériences approfondies montrent que RiVEG surpasse les méthodes de pointe sur le jeu de données GMNER existant et obtient des avances absolues de 10,65 %, 6,21 % et 8,83 % dans chacun des trois sous-tâches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp