Ein Darstellungslernframework für die mehrquellenbasierte Transfer-Parsing
Die Übertragung von sprachübergreifenden Modellen hat sich als vielversprechender Ansatz zur Entwicklung von Abhängigkeitsparsing-Systemen für Sprachen mit geringen Ressourcen erwiesen, bei denen annotierte Baumkorpora nicht verfügbar sind. Die beiden Haupthindernisse dieses Ansatzes sind zweifach: 1. Lexikalische Merkmale sind nicht direkt zwischen Sprachen übertragbar; 2. Sprachspezifische syntaktische Strukturen im Zielsprache sind schwer wiederherzustellen. Um diese beiden Herausforderungen zu bewältigen, präsentieren wir einen neuartigen Rahmen für die Darstellungslernung zur mehrfachen Quellenübertragung beim Parsing. Unser Rahmen ermöglicht eine direkte und nahtlose Übertragung von vollständigen lexikalischen Merkmalen aus mehreren Quellsprachen. Bei der Evaluierung an den Google Universal Dependency Baumkorpora (v2.0) erzielen unsere besten Modelle eine absolute Verbesserung von 6,53 % im durchschnittlichen gelabelten Anhangsatz (labeled attachment score) im Vergleich zu delexikalisierten Modellen für mehrfache Quellenübertragung. Zudem schlagen wir deutlich das aktuell beste Übertragungssystem, das kürzlich vorgestellt wurde, bei weitem.