HyperAIHyperAI
vor 2 Monaten

ITA: Bild-Text-Anpassungen für die mehrmodalen Namensentitänerkennung

Xinyu Wang; Min Gui; Yong Jiang; Zixia Jia; Nguyen Bach; Tao Wang; Zhongqiang Huang; Fei Huang; Kewei Tu
ITA: Bild-Text-Anpassungen für die mehrmodalen Namensentitänerkennung
Abstract

Kürzlich hat die Mehrmodalen Namenerkennung (Multi-modal Named Entity Recognition, MNER) viel Aufmerksamkeit auf sich gezogen. Die meisten Arbeiten nutzen bildliche Informationen durch regionsbasierte visuelle Darstellungen, die von einem vortrainierten Objekterkennungsmodell abgeleitet werden, und setzen auf ein Aufmerksamkeitsmechanismus, um die Interaktionen zwischen bildlichen und textuellen Darstellungen zu modellieren. Allerdings ist es schwierig, solche Interaktionen zu modellieren, da die bildlichen und textuellen Darstellungen getrennt auf den Daten ihrer jeweiligen Modalität trainiert werden und nicht im selben Raum ausgerichtet sind. Da textuelle Darstellungen bei der MNER eine zentrale Rolle spielen, schlagen wir in dieser Arbeit {\bf B}ild-\textbf{t}ext \textbf{A}usrichtungen (Image-{\bf t}ext {\bf A}lignments, ITA) vor, um bildliche Merkmale in den textuellen Raum auszurichten. Dies ermöglicht eine bessere Nutzung des Aufmerksamkeitsmechanismus in transformer-basierten vortrainierten textuellen Einbettungen.ITA ordnet zunächst das Bild regionalen Objektetiketten, bildniveau-Beschreibungen und optischen Zeichen als visuelle Kontexte zu. Diese werden dann mit den Eingabetexten zusammengeführt, um eine neue multimodale Eingabe zu erzeugen. Anschließend wird diese Eingabe in ein vortrainiertes textuelles Einbettungsmodell eingespeist. Dadurch wird es für das Aufmerksamkeitsmodul eines vortrainierten textuellen Einbettungsmodells einfacher, die Interaktion zwischen den beiden Modalitäten zu modellieren, da beide im textuellen Raum dargestellt sind. ITA passt ferner die Ausgabeverteilungen an, die aus der multimodalen Eingabe und der textuellen Eingabe berechnet werden, sodass das MNER-Modell praktischer mit rein textuellen Eingaben umgehen kann und gegenüber Störungen in Bildern robuster wird.In unseren Experimenten zeigen wir, dass ITA-Modelle auf mehrmodalen Namenerkennung-Datensätzen Stand-der-Technik-Akkuraten erreichen können – sogar ohne Verwendung von Bildinformationen.

ITA: Bild-Text-Anpassungen für die mehrmodalen Namensentitänerkennung | Neueste Forschungsarbeiten | HyperAI