Transformers mit rekursiv zusammengesetzten multi-granularen Darstellungen erweitern

Wir präsentieren ReCAT, einen rekursiv erweiterten Transformer, der in der Lage ist, hierarchische syntaxbasierte Strukturen von Rohdaten explizit zu modellieren, ohne auf goldene Bäume während des Lernens und der Inferenz angewiesen zu sein. Bestehende Forschungen in diesem Bereich beschränken die Daten auf eine hierarchische Baumstruktur und fehlen daher an Kommunikation zwischen Spannen. Um dieses Problem zu überwinden, schlagen wir ein neues kontextuelles Inside-Outside (CIO)-Layer vor, der durch bottom-up- und top-down-Passes kontextualisierte Darstellungen von Spannen lernt. Dabei bildet ein bottom-up-Pass Darstellungen von hochstufigen Spannen durch die Kombination von niedrigstufigen Spannen, während ein top-down-Pass Informationen innerhalb und außerhalb einer Spanne kombiniert. Durch das Stapeln mehrerer CIO-Layers zwischen dem Embedding-Layer und den Aufmerksamkeitslayern im Transformer kann das ReCAT-Modell sowohl tiefe intra-spanweise als auch tiefe inter-spanweise Interaktionen durchführen und dadurch multigranulare Darstellungen erzeugen, die vollständig mit anderen Spannen kontextualisiert sind. Zudem können die CIO-Layers gemeinsam mit den Transformers vortrainiert werden, sodass ReCAT Skalierbarkeit, starke Leistungsfähigkeit und Interpretierbarkeit gleichzeitig bietet. Wir führen Experimente für verschiedene satz- und spannengestützte Aufgaben durch. Die Evaluationsergebnisse zeigen, dass ReCAT bei allen spannengestützten Aufgaben signifikant besser abschneidet als herkömmliche Transformer-Modelle und Baseline-Methoden, die rekursive Netze mit Transformers kombinieren, insbesondere bei natürlichsprachlichen Inferenzaufgaben. Interessanterweise weisen die durch ReCAT induzierten hierarchischen Strukturen eine starke Übereinstimmung mit menschlich annotierten Syntaxbäumen auf, was eine gute Interpretierbarkeit der CIO-Layers nahelegt.