HyperAIHyperAI
vor 4 Monaten

Integration eines heterogenen Graphen mit entitätsbewusster Selbstaufmerksamkeit unter Verwendung relativer Positionsbezeichnungen für ein Leseverständnismodell

Shima Foolad; Kourosh Kiani
Integration eines heterogenen Graphen mit entitätsbewusster Selbstaufmerksamkeit unter Verwendung relativer Positionsbezeichnungen für ein Leseverständnismodell
Abstract

Trotz der erheblichen Fortschritte, die Transformer-Modelle bei maschinellen Leseverständnistests erzielt haben, sind sie noch immer bei der Bearbeitung komplexer Schlussfolgerungsaufgaben aufgrund des Fehlens expliziten Wissens in der Eingabe-Sequenz eingeschränkt. Um diese Einschränkung zu beheben, schlagen viele jüngste Arbeiten vor, externes Wissen in das Modell zu integrieren. Die Auswahl relevanter externer Kenntnisse, die Sicherstellung ihrer Verfügbarkeit und die Notwendigkeit zusätzlicher Verarbeitungsschritte bleiben jedoch Herausforderungen. In dieser Arbeit stellen wir ein neues Aufmerksamkeitsmuster vor, das Schlussfolgerungswissen aus einem heterogenen Graphen in die Transformer-Architektur integriert, ohne auf externes Wissen angewiesen zu sein. Das vorgeschlagene Aufmerksamkeitsmuster besteht aus drei wesentlichen Elementen: globale-lokale Aufmerksamkeit für Worttoken, Graphenaufmerksamkeit für Entitätstoken, die eine starke Aufmerksamkeit auf Token zeigen, die im Graph verbunden sind, im Gegensatz zu nicht verbundenen Token, sowie die Berücksichtigung des Beziehungstyps zwischen jedem Entitätstoken und Worttoken. Dies führt zu einer optimierten Aufmerksamkeit zwischen den beiden Elementen, falls eine Beziehung existiert. Das Muster wird mit speziellen relativen Positionierungsetiketten gekoppelt, was es ermöglicht, sich nahtlos mit dem entitätsbewussten Selbstaufmerksamkeitsmechanismus von LUKE (LUKE's entity-aware self-attention mechanism) zu integrieren. Die experimentellen Ergebnisse bestätigen, dass unser Modell sowohl das state-of-the-art LUKE-Graph-Modell als auch das Baseline-LUKE-Modell in zwei unterschiedlichen Datensätzen übertrifft: ReCoRD, das sich auf alltägliche Schlussfolgerungen konzentriert, und WikiHop, das sich auf Mehrschritt-Schlussfolgerungsprobleme fokussiert.