Effizienter zweiter Ordnung TreeCRF für neuronale Abhängigkeitsanalyse

In der Ära des Deep Learning (DL) sind Parsing-Modelle äußerst vereinfacht worden, ohne dass dies signifikant auf die Leistungsfähigkeit Einfluss nimmt, dank der bemerkenswerten Fähigkeit von mehrschichtigen BiLSTMs zur Repräsentation von Kontext. Als der beliebteste graphbasierte Dependency-Parser aufgrund seiner hohen Effizienz und Leistungsfähigkeit bewertet der Biaffine-Parser einzelne Abhängigkeiten direkt unter der Annahme der Bogenfaktorisierung und verwendet eine äußerst einfache lokale, tokenweise Cross-Entropy-Verlustfunktion für das Training. In dieser Arbeit wird erstmals eine zweite Ordnung TreeCRF-Erweiterung für den Biaffine-Parser vorgestellt. Längere Zeit hinderte die Komplexität und Ineffizienz des Inside-Outside-Algorithmus die Verbreitung von TreeCRF. Um dieses Problem zu lösen, schlagen wir eine effektive Methode vor, um den Inside- und den Viterbi-Algorithmus zu batchen, sodass direkte große Matrixoperationen auf GPUs durchgeführt werden können, und vermeiden auf effiziente Weise den komplexen Outside-Algorithmus mittels effizienter Rückpropagation. Experimente und Analysen an 27 Datensätzen aus 13 Sprachen zeigen eindeutig, dass Techniken, die vor der Ära des Deep Learning entwickelt wurden – wie strukturelles Lernen (globale TreeCRF-Verlustfunktion) und Modellierung höherer Ordnung – nach wie vor nützlich sind und die Leistung des aktuellen Standes der Technik bei Biaffine-Parsern weiter steigern können, insbesondere bei teilweise annotierten Trainingsdaten. Wir stellen unseren Code unter https://github.com/yzhangcs/crfpar zur Verfügung.