vor 2 Monaten

RpBERT: Ein BERT-Modell basierend auf Text-Bild-Relationen für multimodales NER

Lin Sun; Jiquan Wang; Kai Zhang; Yindu Su; Fangsheng Weng

Abstract

Kürzlich wurde die multimodale Namenerkennung (MNER) genutzt, um durch Bilder die Genauigkeit der Namenerkennung in Tweets zu verbessern. Allerdings extrahieren die meisten multimodalen Methoden visuelle Hinweise mittels Aufmerksamkeitsmechanismen, ohne Rücksicht auf die Relevanz von Text und Bild zu nehmen. In der Praxis stellen unabhängige Text-Bild-Paare einen großen Teil der Tweets dar. Visuelle Hinweise, die nicht mit dem Text zusammenhängen, können unsichere oder sogar negative Auswirkungen auf das Lernen multimodaler Modelle haben. In dieser Arbeit führen wir eine Methode zur Propagation von Text-Bild-Beziehungen in das multimodale BERT-Modell ein. Wir integrieren weiche oder harte Gatter, um visuelle Hinweise auszuwählen, und schlagen einen Multitask-Algorithmus vor, um auf den MNER-Datensätzen zu trainieren. In den Experimenten analysieren wir detailliert die Veränderungen des visuellen Aufmerksamkeitsmechanismus vor und nach der Anwendung der Text-Bild-Beziehungspropagation. Unser Modell erzielt den aktuellen Stand der Technik auf den MNER-Datensätzen.请注意，这里“软或硬门”（soft or hard gates）在德语中通常翻译为“weiche oder harte Gatter”。此外，“状态-of-the-art性能”通常翻译为“aktuellen Stand der Technik”。希望这能帮助您更好地理解译文。