Zero-Shot Information Extraction als einheitliche Text-zu-Triple-Übersetzung

Wir formulieren eine Reihe von Information-Extraktion-Aufgaben als Text-zu-Tripel-Übersetzungsrahmen. Anstatt jede Aufgabe separat mit spezifischen Datensätzen und Modellen zu lösen, formalisieren wir die Aufgabe als Übersetzung zwischen einer auf die jeweilige Aufgabe zugeschnittenen Eingabetext und einer Ausgabetripel. Durch die Verwendung der auf die Aufgabe zugeschnittenen Eingabe ermöglichen wir eine aufgabenunabhängige Übersetzung, indem wir das latente Wissen ausnutzen, das ein vortrainiertes Sprachmodell hinsichtlich der Aufgabe besitzt. Wir zeigen weiterhin, dass eine einfache Vortrainingsaufgabe – nämlich vorherzusagen, welcher relationalen Information welcher Eingabetext entspricht – eine effektive Methode darstellt, um aufgabenbezogene Ausgaben zu erzeugen. Dadurch wird ein Zero-Shot-Transfer des Rahmens auf nachgeschaltete Aufgaben möglich. Wir untersuchen die Zero-Shot-Leistung dieses Rahmens auf Open Information Extraction (OIE2016, NYT, WEB, PENN), Relationen-Klassifikation (FewRel und TACRED) sowie Factual Probes (Google-RE und T-REx). Das Modell zeigt signifikante Übertragungsfähigkeit auf die meisten Aufgaben und ist oft mit vollständig überwachten Methoden konkurrenzfähig, ohne dass eine spezifische Aufgabenanpassung erforderlich ist. Beispielsweise übertrifft unser Ansatz die F1-Scores der überwachten Open Information Extraction erheblich, ohne dass der entsprechende Trainingsdatensatz verwendet werden muss.