Modellierung feinkörniger Entitätstypen mit Box-Embeddings

Neuronale Entity-Typisierungsmodelle stellen feinkörnige Entitätstypen typischerweise als Vektoren in einem hochdimensionalen Raum dar, doch solche Räume eignen sich nicht optimal, um die komplexen Interdependenzen dieser Typen zu modellieren. Wir untersuchen die Fähigkeit von Box-Embeddings, bei denen Konzepte als d-dimensionale Hyperrechtecke eingebettet werden, hierarchische Beziehungen zwischen Typen zu erfassen, selbst wenn diese Beziehungen nicht explizit in der Ontologie definiert sind. Unser Modell stellt sowohl Typen als auch Entitätsmentionen als Boxen dar. Jede Mention zusammen mit ihrem Kontext wird in ein BERT-basiertes Modell eingespeist, um die Mention in unserem Box-Raum zu embedden; im Wesentlichen nutzt dieses Modell typologische Hinweise, die in der Oberflächenstruktur des Textes enthalten sind, um eine Typrepräsentation für die Mention zu hypothesieren. Die Beziehung der Box-Enthaltensein kann dann genutzt werden, um sowohl die a posteriori-Wahrscheinlichkeit einer Mention, einen bestimmten Typ aufzuweisen, als auch die bedingten Wahrscheinlichkeitsbeziehungen zwischen den Typen selbst abzuleiten. Wir vergleichen unseren Ansatz mit einem vektorbasierten Typisierungsmodell und beobachten state-of-the-art-Leistung auf mehreren Benchmarks für Entity-Typisierung. Neben einer wettbewerbsfähigen Typisierungsleistung zeigt unser box-basiertes Modell zudem eine bessere Konsistenz der Vorhersagen (die gleichzeitige Vorhersage von Ober- und Unterarten) sowie eine höhere Zuverlässigkeit (d. h. Kalibrierung), was darauf hindeutet, dass das box-basierte Modell die latente Hierarchie der Typen besser erfasst als das vektorbasierte Modell.