HyperAIHyperAI

Command Palette

Search for a command to run...

RpBERT: Ein BERT-Modell basierend auf Text-Bild-Relationen für multimodales NER

Lin Sun* Jiquan Wang* Kai Zhang Yindu Su Fangsheng Weng

Zusammenfassung

Kürzlich wurde die multimodale Namenerkennung (MNER) genutzt, um durch Bilder die Genauigkeit der Namenerkennung in Tweets zu verbessern. Allerdings extrahieren die meisten multimodalen Methoden visuelle Hinweise mittels Aufmerksamkeitsmechanismen, ohne Rücksicht auf die Relevanz von Text und Bild zu nehmen. In der Praxis stellen unabhängige Text-Bild-Paare einen großen Teil der Tweets dar. Visuelle Hinweise, die nicht mit dem Text zusammenhängen, können unsichere oder sogar negative Auswirkungen auf das Lernen multimodaler Modelle haben. In dieser Arbeit führen wir eine Methode zur Propagation von Text-Bild-Beziehungen in das multimodale BERT-Modell ein. Wir integrieren weiche oder harte Gatter, um visuelle Hinweise auszuwählen, und schlagen einen Multitask-Algorithmus vor, um auf den MNER-Datensätzen zu trainieren. In den Experimenten analysieren wir detailliert die Veränderungen des visuellen Aufmerksamkeitsmechanismus vor und nach der Anwendung der Text-Bild-Beziehungspropagation. Unser Modell erzielt den aktuellen Stand der Technik auf den MNER-Datensätzen.请注意,这里“软或硬门”(soft or hard gates)在德语中通常翻译为“weiche oder harte Gatter”。此外,“状态-of-the-art性能”通常翻译为“aktuellen Stand der Technik”。希望这能帮助您更好地理解译文。


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RpBERT: Ein BERT-Modell basierend auf Text-Bild-Relationen für multimodales NER | Paper | HyperAI