Entitätserkennung mit großen Sprachmodellen

Entitätserkennung ist die Aufgabe, zu entscheiden, ob zwei Entitätsbeschreibungen auf dieselbe reale Entität verweisen. Die Entitätserkennung ist ein zentrales Element in den meisten Datenintegrationspipelines. Viele der neuesten Methoden zur Entitätserkennung basieren auf vorab trainierten Sprachmodellen (PLMs) wie BERT oder RoBERTa. Zwei wesentliche Nachteile dieser Modelle bei der Entitätserkennung sind, dass (i) sie erhebliche Mengen an taskspezifischen Trainingsdaten benötigen und (ii) die feinjustierten Modelle nicht robust gegenüber außerhalb der Verteilung liegenden Entitäten sind. In dieser Arbeit wird untersucht, ob generative große Sprachmodelle (LLMs) eine weniger taskspezifische datenabhängige und robuster alternative zu PLM-basierten Matchern darstellen können. Die Studie umfasst sowohl gehostete als auch quelloffene LLMs, die lokal ausgeführt werden können. Wir bewerten diese Modelle in einem Zero-Shot-Szenario sowie in einem Szenario, in dem taskspezifische Trainingsdaten verfügbar sind. Wir vergleichen verschiedene Prompt-Designs und die Sensitivität der Modelle gegenüber Prompts. Wir zeigen, dass es kein einziges optimales Prompt gibt, sondern dass das Prompt für jede Modell/Datensatz-Kombination angepasst werden muss. Des Weiteren untersuchen wir (i) die Auswahl von Kontextbeispielen, (ii) die Erstellung von Matching-Regeln sowie (iii) das Feinjustieren von LLMs mit derselben Trainingsdatenmenge. Unsere Experimente zeigen, dass die besten LLMs keine oder nur wenige Trainingsbeispiele benötigen, um sich mit PLMs zu messen, die mit Tausenden von Beispielen feinjustiert wurden. LLM-basierte Matchers weisen darüber hinaus eine höhere Robustheit gegenüber unbekannten Entitäten auf. Wir zeigen, dass GPT4 strukturierte Erklärungen für Matching-Entscheidungen generieren kann und automatisch potentielle Ursachen von Matching-Fehlern durch die Analyse falscher Entscheidungen identifizieren kann. Wir demonstrieren zudem, dass das Modell sinnvolle textuelle Beschreibungen der identifizierten Fehlerklassen erstellen kann, was Dateningenieuren helfen kann, Entitätsmatching-Pipelines zu verbessern.