Logiformer: Ein zweigeteilter Graph-Transformer-Netzwerk für interpretierbares logisches Schließen

Maschinelles Leseverständnis hat breite Aufmerksamkeit erregt, da es das Potenzial von Modellen für die Textverstehensfähigkeit untersucht. Um die maschinelle Schlussfolgerungsfähigkeit weiter zu stärken, wurde die anspruchsvolle Aufgabe der logischen Schlussfolgerung vorgeschlagen. Frühere Arbeiten zu logischer Schlussfolgerung haben verschiedene Strategien vorgeschlagen, um logische Einheiten aus unterschiedlichen Perspektiven zu extrahieren. Dennoch bleibt die Modellierung der langen Distanzabhängigkeiten zwischen logischen Einheiten eine Herausforderung. Zudem ist es schwierig, die logischen Strukturen des Textes zu erschließen und die diskreten Logikstrukturen anschließend in die kontinuierliche Text-Embedding-Darstellung zu integrieren. Um diese Probleme anzugehen, schlagen wir ein end-to-end-Modell namens Logiformer vor, das ein zweigeteiltes Graph-Transformer-Netzwerk zur logischen Textschlussfolgerung nutzt. Zunächst führen wir unterschiedliche Extraktionsstrategien ein, um den Text in zwei Mengen logischer Einheiten zu zerlegen, und erstellen jeweils einen logischen Graphen und einen Syntax-Graphen. Der logische Graph modelliert die kausalen Beziehungen im logischen Zweig, während der Syntax-Graph die Ko-Existenzbeziehungen im Syntax-Zweig erfassen kann. Zweitens werden zur Modellierung der langen Distanzabhängigkeiten die Knotensequenzen aus beiden Graphen in vollständig verbundene Graph-Transformer-Strukturen eingespeist. Die beiden benachbarten Matrizen dienen dabei als Aufmerksamkeits-Bias für die Graph-Transformer-Lagen und ermöglichen es, die diskreten logischen Strukturen in den kontinuierlichen Raum der Text-Embedding-Darstellung zu überführen. Drittens werden vor der Antwortvorhersage ein dynamischer Gate-Mechanismus und ein fragebewusstes Selbst-Attention-Modul eingeführt, um die Merkmale dynamisch zu aktualisieren. Der Schlussfolgerungsprozess bietet Interpretierbarkeit durch die Nutzung logischer Einheiten, die mit der menschlichen Wahrnehmung konsistent sind. Die experimentellen Ergebnisse belegen die Überlegenheit unseres Modells, das das Stand der Technik bei einem einzelnen Modell auf zwei Benchmarks für logische Schlussfolgerung übertrifft.