HyperAI

Le labelisation de séquences à faible exemplaire est une formulation générale de nombreux problèmes de compréhension du langage naturel dans des scénarios de rareté de données, où les modèles doivent généraliser à de nouveaux types à partir d’un nombre très limité d’exemples étiquetés. Les avancées récentes s’appuient principalement sur l’apprentissage métas basé sur les métriques, ce qui pose deux défis majeurs : la modélisation difficile du prototype « Autre » diversifié, et la difficulté à généraliser aux classes présentant de grandes disparités de domaine. Pour surmonter ces limites, nous proposons un cadre d’apprentissage métas décomposé pour la labelisation de séquences à faible exemplaire, qui décompose la tâche en deux sous-tâches : la détection de mentions à faible exemplaire et la classification de types à faible exemplaire, traitées séquentiellement via l’apprentissage métas. Plus précisément, nous utilisons l’apprentissage métas agnostique au modèle (MAML) afin de guider le modèle de détection de mentions à apprendre des connaissances partagées sur les frontières entre types. À partir des segments de mentions détectés, nous exploitons ensuite un réseau prototypique au niveau des segments amélioré par MAML pour la classification de types à faible exemplaire. Cette approche décomposée évite ainsi la nécessité de modéliser le prototype « Autre » hétérogène. Par ailleurs, l’adoption de l’algorithme MAML permet une exploration plus efficace des connaissances contenues dans les exemples d’appui, permettant à notre modèle de s’adapter rapidement à de nouveaux types à partir de très peu d’exemples étiquetés. Dans le cadre de notre proposition, nous étudions une implémentation basique utilisant deux modèles indépendants pour chacune des deux sous-tâches. Nous proposons également un modèle joint afin de réduire la taille du modèle et le temps d’inférence, rendant ainsi notre cadre plus adapté aux scénarios à ressources limitées. Des expériences étendues sur neuf jeux de données de référence — incluant la reconnaissance d’entités nommées, l’étiquetage de champs (slot tagging), la détection d’événements et l’étiquetage morphosyntaxique — montrent que l’approche proposée atteint des performances de pointe sur diverses tâches de labelisation de séquences à faible exemplaire.

Benchmark	Méthodologie	Métriques
few-shot-ner-on-few-nerd-inter	DecomposedMetaSL	10 way 1~2 shot: 55.61±0.32 10 way 5~10 shot: 67.85±0.18 5 way 1~2 shot: 62.09±0.93 5 way 5~10 shot: 71.26±0.15 Average: 63.99
few-shot-ner-on-few-nerd-intra	DecomposedMetaSL	10 way 1~2 shot: 43.03±0.29 10 way 5~10 shot: 57.58±0.26 5 way 1~2 shot: 49.90±0.33 5 way 5~10 shot: 64.36±0.20 Average: 53.72
pos-tagging-on-twitter-pos	DecomposedMetaSL	Accuracy: 81.01±0.15
pos-tagging-on-wsj-pos	DecomposedMetaSL	Accuracy: 91.78±0.21
slot-filling-on-snips	DecomposedMetaSL	F1 (1-shot) avg: 74.89 F1 (5-shot) avg: 84.54

Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple

{Chin-Yew Lin Tiejun Zhao Börje F. Karlsson Jieru Lin Huiqiang Jiang Qianhui Wu Tingting Ma}

Résumé

Benchmarks

Construire l'IA avec l'IA

Hyper Newsletters

Command Palette