Ko-Training eines unüberwachten Konstituentenparsers mit schwacher Überwachung

Wir stellen eine Methode für unüberwachtes Parsing vor, die auf dem Bootstrapping von Klassifikatoren basiert, um zu bestimmen, ob ein Knoten einen bestimmten Bereich in einem Satz dominiert. Es gibt zwei Arten von Klassifikatoren: einen inneren Klassifikator, der auf einem Bereich operiert, und einen äußeren Klassifikator, der auf allem außerhalb eines gegebenen Bereichs operiert. Durch Selbst-Training und Co-Training mit den beiden Klassifikatoren zeigen wir, dass ihre Wechselwirkung dazu beiträgt, die Genauigkeit beider zu verbessern und somit effektives Parsing zu ermöglichen. Eine Seed-Bootstrapping-Technik bereitet die Daten vor, um diese Klassifikatoren zu trainieren. Unsere Analysen bestätigen zudem, dass dieser Ansatz in Verbindung mit schwacher Überwachung unter Verwendung vorheriger Astbildungswissen einer bekannten Sprache (links/rechts-verzweigend) und minimaler Heuristiken starke induktive Voreingenommenheit in den Parser einbringt und einen F$_1$-Wert von 63,1 auf dem englischen PTB-Testset erreicht. Darüber hinaus zeigen wir die Effektivität unserer Architektur durch die Auswertung an Treebanks für Chinesisch (CTB) und Japanisch (KTB) und erzielen neue Stand-of-the-Art-Ergebnisse. Unser Code und unsere vortrainierten Modelle sind unter https://github.com/Nickil21/weakly-supervised-parsing verfügbar.