Alignment-ergänzte konsistente Übersetzung für multilinguale offene Informationsextraktion

Der Fortschritt bei überwachten Open Information Extraction (OpenIE)-Systemen ist bisher vor allem auf Englisch beschränkt geblieben, da ausreichende Trainingsdaten in anderen Sprachen fehlen. In diesem Paper untersuchen wir Techniken, um englische Texte automatisch für die Trainingsdatengenerierung von OpenIE-Systemen in anderen Sprachen umzuwandeln. Wir stellen das Alignment-Augmented Constrained Translation (AACTrans)-Modell vor, das englische Sätze und ihre entsprechenden Extraktionen konsistent zueinander übersetzt – ohne dass sich durch unabhängige Übersetzungen Vokabular oder semantische Bedeutung verändern. Mit den durch AACTrans generierten Daten trainieren wir ein neuartiges zweistufiges generatives OpenIE-Modell, das wir Gen2OIE nennen. Dieses Modell generiert für jeden Satz: 1) Relationen im ersten Schritt und 2) alle Extraktionen, die die Relation enthalten, im zweiten Schritt. Gen2OIE erweitert die Relationenabdeckung durch eine auf Trainingsdaten umformende Technik, die allgemein für mehrere Sprachen anwendbar ist, im Gegensatz zu bestehenden Modellen, die eine englischspezifische Verlustfunktion verwenden. Evaluierungen an fünf Sprachen – Spanisch, Portugiesisch, Chinesisch, Hindi und Telugu – zeigen, dass Gen2OIE mit AACTrans-Daten bestehende Systeme um 6 bis 25 % in F1 übertrifft.