vor 17 Tagen

UniversalNER: Gezielte Distillation aus großen Sprachmodellen für offene benannte Entitäten-Erkennung

Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon

Abstract

Große Sprachmodelle (LLMs) haben eine bemerkenswerte Generalisierbarkeit gezeigt, beispielsweise die Fähigkeit, beliebige Entitäten und Relationen zu verstehen. Die Instruction-Tuning-Technik hat sich als wirksam erwiesen, um LLMs in kosteneffizientere Modelle wie Alpaca und Vicuna zu „verdichten“. Dennoch verbleiben solche Student-Modelle in nachgeschalteten Anwendungen erheblich hinter den ursprünglichen LLMs zurück. In diesem Paper untersuchen wir eine gezielte Verdichtung durch missionorientierten Instruction-Tuning, um Student-Modelle zu trainieren, die in einer breiten Klasse von Anwendungen, beispielsweise der offenen Informationsextraktion, herausragende Leistung erzielen. Anhand eines Fallstudienbeispiels zur benannten Entitätenerkennung (NER) zeigen wir, wie ChatGPT in deutlich kleinere UniversalNER-Modelle verdichtet werden kann, die für die offene NER geeignet sind. Zur Evaluation erstellen wir den bisher umfangreichsten NER-Benchmark, der aus 43 Datensätzen in 9 unterschiedlichen Domänen besteht, darunter Biomedizin, Programmierung, soziale Medien, Rechtswesen und Finanzen. Ohne jegliche direkte Supervision erreicht UniversalNER bemerkenswerte NER-Accuracy über Zehntausende von Entitätstypen und übertrifft allgemein instruierte Modelle wie Alpaca und Vicuna im Durchschnitt um über 30 absolute F1-Punkte. Mit nur einem Bruchteil der Parameter erlangt UniversalNER nicht nur die Fähigkeit von ChatGPT, beliebige Entitätstypen zu erkennen, sondern übertrifft dessen NER-Genauigkeit im Durchschnitt um 7 bis 9 absolute F1-Punkte. Bemerkenswert ist, dass UniversalNER sogar signifikant besser abschneidet als state-of-the-art-Mehraufgaben-Instruction-Tuned-Systeme wie InstructUIE, die jedoch über überwachte NER-Beispiele verfügen. Wir führen zudem umfassende Ablationsstudien durch, um die Wirkung verschiedener Komponenten unseres Verdichtungsansatzes zu bewerten. Wir veröffentlichen das Verdichtungsrezept, die Daten und die UniversalNER-Modelle, um zukünftige Forschung zu gezielter Verdichtung zu unterstützen.