HyperAIHyperAI
il y a 17 jours

Few-NERD : Un jeu de données pour la reconnaissance de noms propres en peu de exemples

Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie, Hai-Tao Zheng, Zhiyuan Liu
Few-NERD : Un jeu de données pour la reconnaissance de noms propres en peu de exemples
Résumé

Récemment, une importante littérature s’est développée autour du thème de la reconnaissance de noms propres (NER) en peu d’exemples (few-shot NER), mais très peu de données de référence publiées se concentrent spécifiquement sur cette tâche pratique et exigeante. Les approches actuelles collectent des jeux de données supervisés existants pour la NER et les réorganisent dans un cadre peu d’exemples afin de mener des études empiriques. Ces stratégies visent traditionnellement à reconnaître des types d’entités grossiers à partir de très peu d’exemples, alors qu’en pratique, la plupart des types d’entités inconnus sont fins. Dans cet article, nous présentons Few-NERD, un grand jeu de données annoté manuellement pour la NER en peu d’exemples, comprenant une hiérarchie de 8 types d’entités grossiers et 66 types d’entités fins. Few-NERD comprend 188 238 phrases extraites de Wikipedia, soit un total de 4 601 160 mots, chacun annoté comme contexte ou comme partie d’un type d’entité à deux niveaux. À notre connaissance, il s’agit du premier jeu de données pour la NER en peu d’exemples et du plus grand jeu de données manuellement construit pour la NER. Nous avons conçu des tâches de référence aux emphases variées afin d’évaluer de manière exhaustive la capacité de généralisation des modèles. Des résultats empiriques étendus et une analyse approfondie montrent que Few-NERD constitue un défi réel, et que ce problème nécessite encore des recherches approfondies. Nous mettons Few-NERD à disposition publiquement à l’adresse suivante : https://ningding97.github.io/fewnerd/.