HyperAIHyperAI

Command Palette

Search for a command to run...

LLMs als Brücken: Umformulierung der grundbasierten multimodalen Namensentitätserkennung

Li Jinyuan ; Li Han ; Sun Di ; Wang Jiahao ; Zhang Wenkun ; Wang Zan ; Pan Gang

Zusammenfassung

Grounded Multimodale Named Entity Recognition (GMNER) ist eine neuartige multimodale Aufgabe, die darauf abzielt, benannte Entitäten, Entitätstypen und ihre entsprechenden visuellen Bereiche zu identifizieren. Die GMNER-Aufgabe weist zwei herausfordernde Eigenschaften auf: 1) Die schwache Korrelation zwischen Bild-Text-Paaren in sozialen Medien führt dazu, dass ein erheblicher Teil der benannten Entitäten nicht verankert werden kann. 2) Es gibt einen Unterschied zwischen den grobkörnigen referierenden Ausdrücken, die in ähnlichen Aufgaben (z.B. Phrasenlokalisation, Verständnis von referierenden Ausdrücken) häufig verwendet werden, und den feinkörnigen benannten Entitäten.In dieser Arbeit schlagen wir RiVEG vor, ein vereinheitlichtes Framework, das GMNER durch den Einsatz großer Sprachmodelle (LLMs) als verbindende Brücke in eine gemeinsame MNER-VE-VG-Aufgabe umformuliert. Diese Umformulierung bringt zwei Vorteile: 1) Sie behält die optimale MNER-Leistung bei und eliminiert die Notwendigkeit, Objekterkennungsmethoden zur Vorabextraktion regionaler Merkmale einzusetzen. Dies behebt auf natürliche Weise die beiden Hauptlimitierungen bestehender GMNER-Methoden. 2) Die Einführung von Entitätsausdehnungsäusserungen und dem Modul für visuelle Implikation (Visual Entailment, VE) vereint visuelle Verankerung (Visual Grounding, VG) und Entitätsverankerung (Entity Grounding, EG). Dadurch kann RiVEG die Fähigkeiten zur visuellen Implikation und visuellen Verankerung jeder aktuellen oder zukünftigen multimodalen Vortrainingsmodelle nahtlos übernehmen.Umfangreiche Experimente zeigen, dass RiVEG bestehende state-of-the-art-Methoden im vorhandenen GMNER-Datensatz übertrifft und absolute Vorsprünge von 10,65 %, 6,21 % und 8,83 % in allen drei Teilaufgaben erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LLMs als Brücken: Umformulierung der grundbasierten multimodalen Namensentitätserkennung | Paper | HyperAI