Verbesserung der AMR-Parserung durch sequenz-zu-Sequenz-Vortrainierung

In der Literatur ist die Forschung zu Abstract Meaning Representation (AMR)-Parsing stark durch die Größe des menschlich annotierten Datensatzes eingeschränkt, der entscheidend für die Entwicklung eines AMR-Parsers mit guter Leistung ist. Um diese Beschränkung hinsichtlich der Datengröße zu verringern, gewinnen vortrainierte Modelle zunehmend an Aufmerksamkeit im Bereich des AMR-Parsing. Allerdings sind bisherige vortrainierte Modelle, wie BERT, für allgemeine Zwecke konzipiert und könnten für die spezifische Aufgabe des AMR-Parsing nicht optimal funktionieren. In diesem Artikel konzentrieren wir uns auf sequenz-zu-Sequenz (seq2seq)-AMR-Parsing und schlagen einen seq2seq-Vortrainierungsansatz vor, um vortrainierte Modelle sowohl einzeln als auch gemeinsam auf drei relevanten Aufgaben zu entwickeln: maschinelle Übersetzung, syntaktische Analyse und AMR-Parsing selbst. Darüber hinaus erweitern wir die herkömmliche Feinabstimmung (fine-tuning) zu einem Multi-Task-Lern-Feinabstimmungsansatz, der die Leistung beim AMR-Parsing optimiert, gleichzeitig aber auch darauf abzielt, die Reaktionen der vortrainierten Modelle zu bewahren. Umfassende experimentelle Ergebnisse auf zwei englischen Benchmark-Datensätzen zeigen, dass sowohl die einzelnen als auch die gemeinsam vortrainierten Modelle die Leistung erheblich verbessern (z. B. von 71,5 auf 80,2 auf AMR 2.0), was den Stand der Technik erreicht. Das Ergebnis ist äußerst vielversprechend, da wir dies mit seq2seq-Modellen erreicht haben, ohne auf komplexe Architekturen angewiesen zu sein. Wir stellen unseren Code und die Modelle unter https://github.com/xdqkid/S2S-AMR-Parser zur Verfügung.