Label-Verbalisierung und Implikation für eine effektive Zero- und Few-Shot-Relationsextraktion

Relationsextraktionssysteme erfordern große Mengen an gelabelten Beispielen, die kostspielig zu annotieren sind. In dieser Arbeit reformulieren wir die Relationsextraktion als ein Entailment-Task, wobei einfache, manuell erstellte Verbalisierungen von Relationen in weniger als 15 Minuten pro Relation erstellt werden können. Das System basiert auf einem vortrainierten Entailment-Engine, die entweder ohne weitere Anpassung (keine Trainingsbeispiele, zero-shot) oder weiter feinabgestimmt auf gelabelten Beispielen (few-shot oder vollständig trainiert) eingesetzt wird. In unseren Experimenten auf TACRED erreichen wir eine F1-Score von 63 % im zero-shot-Setup, 69 % mit jeweils 16 Beispielen pro Relation (eine Verbesserung um 17 Prozentpunkte gegenüber dem besten überwachten System unter denselben Bedingungen) und liegen nur noch vier Punkte unter dem aktuellen State-of-the-Art (das 20-mal mehr Trainingsdaten nutzt). Zudem zeigen wir, dass die Leistung erheblich durch größere Entailment-Modelle verbessert werden kann – bis zu 12 Prozentpunkte im zero-shot-Setup – wodurch wir bei vollständiger Ausführung die bisher besten Ergebnisse auf TACRED erzielen. Die Analyse zeigt, dass unsere few-shot-Systeme besonders effektiv bei der Unterscheidung zwischen Relationen sind und dass der Leistungsunterschied in datenarmen Szenarien hauptsächlich auf der korrekten Identifizierung von „keine-Relation“-Fällen beruht.