HyperAIHyperAI
vor 2 Monaten

Named Entity und Relationsextraktion mit multimodalem Retrieval

Xinyu Wang; Jiong Cai; Yong Jiang; Pengjun Xie; Kewei Tu; Wei Lu
Named Entity und Relationsextraktion mit multimodalem Retrieval
Abstract

Die mehrmodalen Named Entity Recognition (NER) und Relation Extraction (RE) zielen darauf ab, relevante Bildinformationen zu nutzen, um die Leistung von NER und RE zu verbessern. Die meisten bisherigen Ansätze konzentrierten sich weitgehend auf die direkte Extraktion potentiell nützlicher Informationen aus Bildern (wie pixelbasierte Merkmale, identifizierte Objekte und zugehörige Beschriftungen). Allerdings können solche Extraktionsprozesse nicht wissensbasiert sein, was zu Informationen führen kann, die nicht besonders relevant sind. In dieser Arbeit schlagen wir einen neuen mehrmodalen Retrieval-basierten Rahmen (MoRe) vor. MoRe umfasst ein Textretrieval-Modul und ein bildbasiertes Retrieval-Modul, die jeweils verwandtes Wissen zum Eingabetext und zum Eingangsbild im Wissenskorpus abrufen. Anschließend werden die Abrufergebnisse den textuellen und visuellen Modellen zur Vorhersage übermittelt. Schließlich kombiniert ein Mixture-of-Experts (MoE)-Modul die Vorhersagen der beiden Modelle, um eine endgültige Entscheidung zu treffen. Unsere Experimente zeigen, dass sowohl unser textuelles Modell als auch unser visuelles Modell den aktuellen Stand der Technik auf vier mehrmodalen NER-Datensätzen und einem mehrmodalen RE-Datensatz erreichen können. Mit MoE kann die Modelleistung weiter verbessert werden, wie unsere Analyse die Vorteile der Integration von textuellen und visuellen Hinweisen für solche Aufgaben demonstriert.

Named Entity und Relationsextraktion mit multimodalem Retrieval | Neueste Forschungsarbeiten | HyperAI