Verbesserung der offenen Informationsextraktion mit großen Sprachmodellen: Eine Studie zur Demonstration unsicherheit

Die Aufgabe des Open Information Extraction (OIE) besteht darin, strukturierte Fakten aus unstrukturiertem Text zu extrahieren, typischerweise in Form von (Subjekt, Relation, Objekt)-Tripeln. Trotz des Potenzials großer Sprachmodelle (LLMs) wie ChatGPT als allgemeine Aufgabenlöser hinterherkommen sie state-of-the-art (überwachte) Methoden in OIE-Aufgaben aufgrund zweier zentraler Probleme. Erstens haben LLMs Schwierigkeiten, irrelevante Kontextinformationen von relevanten Relationen zu unterscheiden und strukturierte Ausgaben zu generieren, was auf die Beschränkungen bei der Feinabstimmung (fine-tuning) des Modells zurückzuführen ist. Zweitens generieren LLMs ihre Antworten autoregressiv basierend auf Wahrscheinlichkeiten, was dazu führt, dass die vorhergesagten Relationen geringe Konfidenz aufweisen. In diesem Paper untersuchen wir die Fähigkeiten von LLMs zur Verbesserung der OIE-Aufgabe. Insbesondere schlagen wir verschiedene In-Context-Lernstrategien vor, um die Fähigkeit von LLMs zur Befolgung von Anweisungen zu verbessern, sowie ein Modul zur Quantifizierung der Unsicherheit von Demonstrationen, um die Konfidenz der generierten Relationen zu erhöhen. Unsere Experimente an drei OIE-Benchmark-Datensätzen zeigen, dass unser Ansatz sowohl quantitativ als auch qualitativ mit etablierten überwachten Methoden konkurrieren kann.