Feinabstimmung großer Sprachmodelle für Entitätserkennung

Generative Large Language Models (LLMs) stellen eine vielversprechende Alternative zu vortrainierten Sprachmodellen für die Entitätserkennung dar, aufgrund ihrer hohen Null-Shot-Leistung und ihrer Fähigkeit, auf unbekannte Entitäten zu verallgemeinern. Bestehende Forschungen zur Verwendung von LLMs für die Entitätserkennung haben sich auf das Prompt Engineering und das kontextbasierte Lernen konzentriert. Dieses Papier untersucht das Potential des Feinabstimmens (Fine-Tuning) von LLMs für die Entitätserkennung. Wir analysieren das Feinabstimmungsverfahren entlang zweier Dimensionen: 1) der Darstellung von Trainingsbeispielen, bei denen wir verschiedene Arten von LLM-generierten Erklärungen zum Trainingsset hinzufügen, und 2) der Auswahl und Generierung von Trainingsbeispielen mithilfe von LLMs. Neben der Übereinstimmungsleistung im Quelldatensatz untersuchen wir, wie das Feinabstimmens den Verallgemeinerungsfähigkeiten der Modelle auf andere in-domaene Datensätze sowie über thematische Domänen hinweg beeinflusst. Unsere Experimente zeigen, dass das Feinabstimmens die Leistung der kleineren Modelle erheblich verbessert, während die Ergebnisse für die größeren Modelle gemischt sind. Das Feinabstimmens verbessert auch die Verallgemeinerungsfähigkeit auf in-domäne Datensätze, schadet jedoch dem Transfer über Domänen hinweg. Wir demonstrieren, dass das Hinzufügen strukturierter Erklärungen zum Trainingsset einen positiven Einfluss auf die Leistung dreier von vier LLMs hat, während die vorgeschlagenen Methoden zur Beispielauswahl und -generierung nur die Leistung von Llama 3.1 8B verbessern und die Leistung von GPT-4o-mini verringern.