HyperAIHyperAI
vor 17 Tagen

Unsupervisedes Parsing mit S-DIORA: Single Tree Encoding für Deep Inside-Outside Recursive Autoencoders

{Andrew McCallum, Mohit Iyyer, Tim O{'}Gorman, Yi-Pei Chen, Subendhu Rongali, Andrew Drozdov}
Unsupervisedes Parsing mit S-DIORA: Single Tree Encoding für Deep Inside-Outside Recursive Autoencoders
Abstract

Der tiefgreifende innen-aus-extern rekursive Autoencoder (DIORA; Drozdov et al. 2019) ist ein selbstüberwachtes neuronales Modell, das lernt, syntaktische Baumstrukturen für Eingabesätze ohne Zugriff auf gelabelte Trainingsdaten zu induzieren. In dieser Arbeit entdecken wir, dass DIORA, obwohl es alle möglichen binären Bäume eines Satzes mit einer weichen dynamischen Programmierung erschöpfend kodiert, aufgrund seines Vektor-Averaging-Ansatzes lokal gierig vorgeht und Fehler bei der Berechnung des hochbewerteten Parsebaums im bottom-up Chart-Parsing nicht korrigieren kann. Um dieses Problem zu beheben, führen wir S-DIORA ein, eine verbesserte Variante von DIORA, die anstelle einer weich gewichteten Mischung aus Bäumen jeweils nur einen einzelnen Baum kodiert, indem sie eine harte Argmax-Operation sowie einen Beam in jeder Zelle des Chart-Netzwerks einsetzt. Unsere Experimente zeigen, dass sich durch Feinabstimmung eines vortrainierten DIORA-Modells mit unserem neuen Algorithmus die bisher beste Leistung in der unüberwachten Konstituenten-Parsing-Aufgabe am englischen WSJ Penn Treebank um 2,2 bis 6 % F1 steigert, je nach verwendeten Daten für die Feinabstimmung.