Zur Ermittlung von Syntax aus Sprachmodellen durch Hashing

Unüberwachtes Parsing, auch bekannt als Grammatikinduktion, zielt darauf ab, die syntaktische Struktur aus rohem Text zu inferieren. Kürzlich haben binäre Repräsentationen bemerkenswerte Informationsbewahrungsfähigkeiten auf lexikalischer und syntaktischer Ebene gezeigt. In dieser Arbeit untersuchen wir die Möglichkeit, diese Fähigkeit zu nutzen, um Parsing-Bäume aus rohem Text abzuleiten, indem wir ausschließlich auf die implizit induzierten Grammatiken innerhalb der Modelle zurückgreifen. Um dies zu erreichen, aktualisieren wir das bitbasierte CKY (Cocke-Kasami-Younger) von der Null- zur Erstordnung, um Lexikon und Syntax in einem vereinten binären Repräsentationsraum zu kodieren. Zudem wechseln wir das Training unter dem Kontrastiv-Hashing-Rahmenwerk vom überwachten zum unüberwachten Modus und führen eine neuartige Verlustfunktion ein, um stärkere, aber ausgeglichene Ausrichtungssignale zu erzeugen. Unser Modell zeigt wettbewerbsfähige Leistungen auf verschiedenen Datensätzen. Daher behaupten wir, dass unsere Methode effektiv und effizient genug ist, um hochwertige Parsing-Bäume aus vorab trainierten Sprachmodellen mit geringem Aufwand zu gewinnen.