Few-NERD: Ein Few-Shot Named Entity Recognition-Datensatz

In letzter Zeit ist eine beträchtliche Literatur zum Thema Few-Shot Named Entity Recognition (NER) entstanden, doch es existiert bisher kaum veröffentlichte Benchmark-Daten, die sich speziell auf die praktisch herausfordernde Aufgabe konzentrieren. Aktuelle Ansätze sammeln bestehende überwachte NER-Datensätze und reorganisieren sie für empirische Studien in die Few-Shot-Situation. Diese Strategien zielen traditionell darauf ab, grobgegliederte Entitätstypen mit wenigen Beispielen zu erkennen, während in der Praxis die meisten nicht gesehenen Entitätstypen fein granuliert sind. In diesem Artikel präsentieren wir Few-NERD, einen großskaligen, menschlich annotierten Few-Shot-NER-Datensatz mit einer Hierarchie aus 8 grobgegliederten und 66 fein granulierten Entitätstypen. Few-NERD umfasst 188.238 Sätze aus Wikipedia, wobei insgesamt 4.601.160 Wörter enthalten sind, die jeweils als Kontext oder Teil eines zweistufigen Entitätstyps annotiert wurden. Soweit uns bekannt ist, handelt es sich hierbei um den ersten Few-Shot-NER-Datensatz und den größten menschlich erstellten NER-Datensatz. Wir etablieren Benchmark-Aufgaben mit unterschiedlichen Schwerpunkten, um die Generalisierungsfähigkeit von Modellen umfassend zu bewerten. Umfangreiche empirische Ergebnisse und Analysen zeigen, dass Few-NERD herausfordernd ist und dass das Problem weiterer Forschung bedarf. Few-NERD ist öffentlich verfügbar unter https://ningding97.github.io/fewnerd/.