UniversalNER : Distillation ciblée à partir de grands modèles linguistiques pour la reconnaissance nommée ouverte

Les grands modèles linguistiques (LLM) ont démontré une généralisation remarquable, notamment en compréhension d’entités et de relations arbitraires. L’ajustement par instruction s’est avéré efficace pour réduire les LLM en modèles plus économiques, comme Alpaca ou Vicuna. Toutefois, ces modèles étudiants restent largement en retard par rapport aux LLM d’origine dans les applications en aval. Dans cet article, nous explorons une distillation ciblée combinée à un ajustement par instruction axé sur une mission, afin d’entraîner des modèles étudiants capables de s’illustrer dans une large classe d’applications, comme l’extraction ouverte d’information. À titre d’étude de cas, nous utilisons la reconnaissance d’entités nommées (NER) pour montrer comment ChatGPT peut être distillé en modèles beaucoup plus petits, appelés UniversalNER, adaptés à la NER ouverte. Pour l’évaluation, nous constituons le plus grand benchmark NER à ce jour, comprenant 43 jeux de données répartis sur 9 domaines divers, tels que la biotechnologie, le développement logiciel, les médias sociaux, le droit, ou la finance. Sans utiliser aucune supervision directe, UniversalNER atteint une précision NER remarquable sur des dizaines de milliers de types d’entités, surpassant en moyenne les modèles généraux ajustés par instruction comme Alpaca et Vicuna de plus de 30 points F1 absolus. Avec une fraction négligeable de paramètres, UniversalNER non seulement acquiert la capacité de ChatGPT à reconnaître des types d’entités arbitraires, mais dépasse également sa précision NER en moyenne de 7 à 9 points F1 absolus. De manière remarquable, UniversalNER surpasse même de manière significative les systèmes d’ajustement par instruction multi-tâches de pointe, tels qu’InstructUIE, qui utilisent des exemples de NER supervisés. Nous menons également des études d’ablation approfondies afin d’évaluer l’impact de divers composants de notre approche de distillation. Nous mettons à disposition la recette de distillation, les données et les modèles UniversalNER afin de faciliter les recherches futures sur la distillation ciblée.