HyperAIHyperAI
il y a 11 jours

Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple

{Chin-Yew Lin, Tiejun Zhao, Börje F. Karlsson, Jieru Lin, Huiqiang Jiang, Qianhui Wu, Tingting Ma}
Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple
Résumé

Le labelisation de séquences à faible exemplaire est une formulation générale de nombreux problèmes de compréhension du langage naturel dans des scénarios de rareté de données, où les modèles doivent généraliser à de nouveaux types à partir d’un nombre très limité d’exemples étiquetés. Les avancées récentes s’appuient principalement sur l’apprentissage métas basé sur les métriques, ce qui pose deux défis majeurs : la modélisation difficile du prototype « Autre » diversifié, et la difficulté à généraliser aux classes présentant de grandes disparités de domaine. Pour surmonter ces limites, nous proposons un cadre d’apprentissage métas décomposé pour la labelisation de séquences à faible exemplaire, qui décompose la tâche en deux sous-tâches : la détection de mentions à faible exemplaire et la classification de types à faible exemplaire, traitées séquentiellement via l’apprentissage métas. Plus précisément, nous utilisons l’apprentissage métas agnostique au modèle (MAML) afin de guider le modèle de détection de mentions à apprendre des connaissances partagées sur les frontières entre types. À partir des segments de mentions détectés, nous exploitons ensuite un réseau prototypique au niveau des segments amélioré par MAML pour la classification de types à faible exemplaire. Cette approche décomposée évite ainsi la nécessité de modéliser le prototype « Autre » hétérogène. Par ailleurs, l’adoption de l’algorithme MAML permet une exploration plus efficace des connaissances contenues dans les exemples d’appui, permettant à notre modèle de s’adapter rapidement à de nouveaux types à partir de très peu d’exemples étiquetés. Dans le cadre de notre proposition, nous étudions une implémentation basique utilisant deux modèles indépendants pour chacune des deux sous-tâches. Nous proposons également un modèle joint afin de réduire la taille du modèle et le temps d’inférence, rendant ainsi notre cadre plus adapté aux scénarios à ressources limitées. Des expériences étendues sur neuf jeux de données de référence — incluant la reconnaissance d’entités nommées, l’étiquetage de champs (slot tagging), la détection d’événements et l’étiquetage morphosyntaxique — montrent que l’approche proposée atteint des performances de pointe sur diverses tâches de labelisation de séquences à faible exemplaire.

Apprentissage méta décomposé pour l'étiquetage de séquences à faible exemple | Articles de recherche récents | HyperAI