vor 17 Tagen

Verbesserung der offenen Informationsextraktion mit großen Sprachmodellen: Eine Studie zur Demonstration unsicherheit

Chen Ling, Xujiang Zhao, Xuchao Zhang, Yanchi Liu, Wei Cheng, Haoyu Wang, Zhengzhang Chen, Takao Osaki, Katsushi Matsuda, Haifeng Chen, Liang Zhao

Details der Forschungsarbeit anzeigen

Verbesserung der offenen Informationsextraktion mit großen Sprachmodellen: Eine Studie zur Demonstration unsicherheit

Abstract

Die Aufgabe des Open Information Extraction (OIE) besteht darin, strukturierte Fakten aus unstrukturiertem Text zu extrahieren, typischerweise in Form von (Subjekt, Relation, Objekt)-Tripeln. Trotz des Potenzials großer Sprachmodelle (LLMs) wie ChatGPT als allgemeine Aufgabenlöser hinterherkommen sie state-of-the-art (überwachte) Methoden in OIE-Aufgaben aufgrund zweier zentraler Probleme. Erstens haben LLMs Schwierigkeiten, irrelevante Kontextinformationen von relevanten Relationen zu unterscheiden und strukturierte Ausgaben zu generieren, was auf die Beschränkungen bei der Feinabstimmung (fine-tuning) des Modells zurückzuführen ist. Zweitens generieren LLMs ihre Antworten autoregressiv basierend auf Wahrscheinlichkeiten, was dazu führt, dass die vorhergesagten Relationen geringe Konfidenz aufweisen. In diesem Paper untersuchen wir die Fähigkeiten von LLMs zur Verbesserung der OIE-Aufgabe. Insbesondere schlagen wir verschiedene In-Context-Lernstrategien vor, um die Fähigkeit von LLMs zur Befolgung von Anweisungen zu verbessern, sowie ein Modul zur Quantifizierung der Unsicherheit von Demonstrationen, um die Konfidenz der generierten Relationen zu erhöhen. Unsere Experimente an drei OIE-Benchmark-Datensätzen zeigen, dass unser Ansatz sowohl quantitativ als auch qualitativ mit etablierten überwachten Methoden konkurrieren kann.