HyperAIHyperAI
vor 2 Monaten

LLMs als Brücken: Umformulierung der grundbasierten multimodalen Namensentitätserkennung

Li, Jinyuan ; Li, Han ; Sun, Di ; Wang, Jiahao ; Zhang, Wenkun ; Wang, Zan ; Pan, Gang
LLMs als Brücken: Umformulierung der grundbasierten multimodalen Namensentitätserkennung
Abstract

Grounded Multimodale Named Entity Recognition (GMNER) ist eine neuartige multimodale Aufgabe, die darauf abzielt, benannte Entitäten, Entitätstypen und ihre entsprechenden visuellen Bereiche zu identifizieren. Die GMNER-Aufgabe weist zwei herausfordernde Eigenschaften auf: 1) Die schwache Korrelation zwischen Bild-Text-Paaren in sozialen Medien führt dazu, dass ein erheblicher Teil der benannten Entitäten nicht verankert werden kann. 2) Es gibt einen Unterschied zwischen den grobkörnigen referierenden Ausdrücken, die in ähnlichen Aufgaben (z.B. Phrasenlokalisation, Verständnis von referierenden Ausdrücken) häufig verwendet werden, und den feinkörnigen benannten Entitäten.In dieser Arbeit schlagen wir RiVEG vor, ein vereinheitlichtes Framework, das GMNER durch den Einsatz großer Sprachmodelle (LLMs) als verbindende Brücke in eine gemeinsame MNER-VE-VG-Aufgabe umformuliert. Diese Umformulierung bringt zwei Vorteile: 1) Sie behält die optimale MNER-Leistung bei und eliminiert die Notwendigkeit, Objekterkennungsmethoden zur Vorabextraktion regionaler Merkmale einzusetzen. Dies behebt auf natürliche Weise die beiden Hauptlimitierungen bestehender GMNER-Methoden. 2) Die Einführung von Entitätsausdehnungsäusserungen und dem Modul für visuelle Implikation (Visual Entailment, VE) vereint visuelle Verankerung (Visual Grounding, VG) und Entitätsverankerung (Entity Grounding, EG). Dadurch kann RiVEG die Fähigkeiten zur visuellen Implikation und visuellen Verankerung jeder aktuellen oder zukünftigen multimodalen Vortrainingsmodelle nahtlos übernehmen.Umfangreiche Experimente zeigen, dass RiVEG bestehende state-of-the-art-Methoden im vorhandenen GMNER-Datensatz übertrifft und absolute Vorsprünge von 10,65 %, 6,21 % und 8,83 % in allen drei Teilaufgaben erzielt.

LLMs als Brücken: Umformulierung der grundbasierten multimodalen Namensentitätserkennung | Neueste Forschungsarbeiten | HyperAI