Transitionbasierte Parsing mit Stack-Transformern

Die Modellierung des Parser-Zustands ist entscheidend für eine hohe Leistungsfähigkeit in transitionsbasierten Parsing-Systemen. Rekurrente neuronale Netzwerke haben die Leistung solcher Systeme erheblich verbessert, indem sie entweder den globalen Zustand modellieren (z. B. Stack-LSTM-Parsen) oder den lokalen Zustand kontextualisierter Merkmale (z. B. Bi-LSTM-Parsen). Angesichts des Erfolgs von Transformer-Architekturen in jüngsten Parsing-Systemen untersucht diese Arbeit Modifikationen der sequenz-zu-sequenz-Transformer-Architektur, um entweder den globalen oder lokalen Parser-Zustand in transitionsbasierten Parsing-Verfahren zu modellieren. Wir zeigen, dass Modifikationen der Cross-Attention-Mechanismen des Transformers die Leistung sowohl bei Dependency-Parsing als auch bei Abstract-Meaning-Representation-(AMR)-Parsing deutlich steigern, insbesondere bei kleineren Modellen oder begrenzten Trainingsdaten.