Modellierung dichter, multimodaler Wechselwirkungen für die gemeinsame Entität-Relation-Aus extraction

Die gemeinsame Extraktion von Entitäten und ihren Relationen profitiert von der engen Wechselwirkung zwischen benannten Entitäten und deren relationellen Informationen. Daher ist es entscheidend, solche multimodalen Interaktionen effektiv zu modellieren, um die Endleistung zu maximieren. Bisherige Ansätze haben einfache Methoden wie die Kombination von Label- und Merkmalsvektoren verwendet, um eine grobe semantische Fusion zwischen multimodalen Instanzen durchzuführen. Diese Vorgehensweise erfasst jedoch keine feinabgestimmten Korrelationen über Token- und Label-Räume, was zu einer unzureichenden Interaktion führt. In diesem Artikel stellen wir ein tiefes Cross-Modal-Attention-Netzwerk (CMAN) für die gemeinsame Extraktion von Entitäten und Relationen vor. Das Netzwerk wird durch tiefes Stapeln mehrerer Aufmerksamkeitskomponenten sorgfältig konstruiert, um dichte Interaktionen über Token-Label-Räume vollständig zu modellieren. Dabei werden zwei grundlegende Aufmerksamkeitskomponenten vorgeschlagen, die feinabgestimmte Korrelationen zwischen verschiedenen Modalitäten explizit erfassen (z. B. Token-zu-Token und Label-zu-Token). Experimentelle Ergebnisse auf dem CoNLL04-Datensatz zeigen, dass unser Modell durch eine F1-Score von 90,62 % bei der Entitätenerkennung und 72,97 % bei der Relationsklassifikation Ergebnisse auf State-of-the-Art-Niveau erzielt. Auf dem ADE-Datensatz übertrifft unser Modell bestehende Ansätze um mehr als 1,9 % F1 bei der Relationsklassifikation. Ausführliche Analysen bestätigen zudem die Wirksamkeit unseres Ansatzes.