il y a 8 mois

Résumé

La Reconnaissance d'Entités Nommées Multimodales Ancrées (GMNER) est une tâche multimodale émergente visant à identifier les entités nommées, leurs types et leurs régions visuelles correspondantes. La tâche GMNER présente deux propriétés défiant des défis importants : 1) La faible corrélation entre les paires image-texte sur les réseaux sociaux entraîne qu'une part significative des entités nommées ne peut être ancrée. 2) Il existe une différence entre les expressions de référence grossières couramment utilisées dans des tâches similaires (par exemple, la localisation de phrases, la compréhension des expressions de référence) et les entités nommées fines.Dans cet article, nous proposons RiVEG, un cadre unifié qui reformule GMNER en une tâche conjointe MNER-VE-VG en exploitant les grands modèles linguistiques (LLMs) comme pont de connexion. Cette reformulation apporte deux avantages : 1) Elle maintient les performances optimales de MNER et élimine le besoin d'utiliser des méthodes de détection d'objets pour préextraire des caractéristiques régionales, permettant ainsi de surmonter naturellement deux limitations majeures des méthodes GMNER existantes. 2) L'introduction d'expressions d'expansion d'entité et du module d'Entailment Visuel (VE) unifie l'Ancrage Visuel (VG) et l'Ancrage d'Entité (EG). Cela permet à RiVEG d'hériter facilement des capacités d'Entailment Visuel et d'Ancrage Visuel de tout modèle actuel ou futur de préformation multimodale.Des expériences approfondies montrent que RiVEG surpasse les méthodes de pointe sur le jeu de données GMNER existant et obtient des avances absolues de 10,65 %, 6,21 % et 8,83 % dans chacun des trois sous-tâches.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Apprentissage Multi-tâches

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Apprentissage Multi-tâches

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

LLMs comme Ponts : Réformulation de la Reconnaissance d'Entités Nommées Multimodales Ancrées

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LLMs comme Ponts : Réformulation de la Reconnaissance d'Entités Nommées Multimodales Ancrées

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

LLMs comme Ponts : Réformulation de la Reconnaissance d'Entités Nommées Multimodales Ancrées

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters