HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple

{Chin-Yew Lin Tiejun Zhao Börje F. Karlsson Jieru Lin Huiqiang Jiang Qianhui Wu Tingting Ma}

Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple

Résumé

Le labelisation de séquences à faible exemplaire est une formulation générale de nombreux problèmes de compréhension du langage naturel dans des scénarios de rareté de données, où les modèles doivent généraliser à de nouveaux types à partir d’un nombre très limité d’exemples étiquetés. Les avancées récentes s’appuient principalement sur l’apprentissage métas basé sur les métriques, ce qui pose deux défis majeurs : la modélisation difficile du prototype « Autre » diversifié, et la difficulté à généraliser aux classes présentant de grandes disparités de domaine. Pour surmonter ces limites, nous proposons un cadre d’apprentissage métas décomposé pour la labelisation de séquences à faible exemplaire, qui décompose la tâche en deux sous-tâches : la détection de mentions à faible exemplaire et la classification de types à faible exemplaire, traitées séquentiellement via l’apprentissage métas. Plus précisément, nous utilisons l’apprentissage métas agnostique au modèle (MAML) afin de guider le modèle de détection de mentions à apprendre des connaissances partagées sur les frontières entre types. À partir des segments de mentions détectés, nous exploitons ensuite un réseau prototypique au niveau des segments amélioré par MAML pour la classification de types à faible exemplaire. Cette approche décomposée évite ainsi la nécessité de modéliser le prototype « Autre » hétérogène. Par ailleurs, l’adoption de l’algorithme MAML permet une exploration plus efficace des connaissances contenues dans les exemples d’appui, permettant à notre modèle de s’adapter rapidement à de nouveaux types à partir de très peu d’exemples étiquetés. Dans le cadre de notre proposition, nous étudions une implémentation basique utilisant deux modèles indépendants pour chacune des deux sous-tâches. Nous proposons également un modèle joint afin de réduire la taille du modèle et le temps d’inférence, rendant ainsi notre cadre plus adapté aux scénarios à ressources limitées. Des expériences étendues sur neuf jeux de données de référence — incluant la reconnaissance d’entités nommées, l’étiquetage de champs (slot tagging), la détection d’événements et l’étiquetage morphosyntaxique — montrent que l’approche proposée atteint des performances de pointe sur diverses tâches de labelisation de séquences à faible exemplaire.

Benchmarks

BenchmarkMéthodologieMétriques
few-shot-ner-on-few-nerd-interDecomposedMetaSL
10 way 1~2 shot: 55.61±0.32
10 way 5~10 shot: 67.85±0.18
5 way 1~2 shot: 62.09±0.93
5 way 5~10 shot: 71.26±0.15
Average: 63.99
few-shot-ner-on-few-nerd-intraDecomposedMetaSL
10 way 1~2 shot: 43.03±0.29
10 way 5~10 shot: 57.58±0.26
5 way 1~2 shot: 49.90±0.33
5 way 5~10 shot: 64.36±0.20
Average: 53.72
pos-tagging-on-twitter-posDecomposedMetaSL
Accuracy: 81.01±0.15
pos-tagging-on-wsj-posDecomposedMetaSL
Accuracy: 91.78±0.21
slot-filling-on-snipsDecomposedMetaSL
F1 (1-shot) avg: 74.89
F1 (5-shot) avg: 84.54

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple | Articles de recherche | HyperAI