Une méthode améliorée de décomposition par segments pour l’étiquetage de séquences à faibles exemples

Le Few-Shot Sequence Labeling (FSSL) constitue un paradigme classique pour les modèles d'étiquetage, tels que la reconnaissance d'entités nommées (NER) ou le remplissage de champs (slot filling), afin de généraliser efficacement dans des domaines émergents aux ressources limitées. Récemment, le cadre de méta-apprentissage basé sur les métriques a été reconnu comme une approche prometteuse pour le FSSL. Toutefois, la plupart des travaux antérieurs attribuent une étiquette à chaque token en se basant uniquement sur les similarités au niveau du token, ce qui ignore l'intégrité des entités nommées ou des champs. À cet effet, dans cet article, nous proposons ESD, une méthode améliorée de décomposition par segments pour le FSSL. ESD reformule le FSSL comme un problème de correspondance au niveau des segments entre une requête de test et des instances d'assistance. Plus précisément, ESD décompose le problème de correspondance de segments en une série de procédures au niveau des segments, comprenant principalement une représentation améliorée des segments, une agrégation des prototypes de classes et une résolution des conflits entre segments. Des expériences étendues montrent que ESD atteint de nouveaux records sur deux benchmarks populaires de FSSL, FewNERD et SNIPS, et se révèle plus robuste dans des scénarios de tagging imbriqués ou bruités. Notre code est disponible à l'adresse suivante : https://github.com/Wangpeiyi9979/ESD.