HyperAIHyperAI
il y a 18 jours

Méthodes d’alignement séquentiel pour l’étiquetage morpho-syntaxique par ensemble

{Yoon-Hyung Roh, SangKeun Jung, Jeesu Jung}
Résumé

L’analyse morphosyntaxique (part-of-speech tagging) est une tâche fondamentale qui fournit la structure élémentaire et les informations sémantiques nécessaires à d’autres traitements du langage naturel. Bien que les problèmes d’analyse morphosyntaxique aient traditionnellement été formulés comme des tâches d’étiquetage séquentiel, aucune des approches d’ensemble proposées n’a jusqu’à présent porté d’attention à l’alignement de séquences au cours du post-traitement. Dans cet article, nous présentons une technique d’ensemble pondérée basée sur une approche d’alignement de séquences pour un taggeur morphosyntaxique. Grâce à cette méthode, nous introduisons un post-traitement simple mais efficace, consistant en un sélecteur de sous-séquence fondé sur un score de similarité calculé par des méthodes d’alignement de séquences. Ces méthodes s’inspirent d’une approche existante d’alignement d’ADN adaptée au traitement du langage naturel. Des expériences ont été menées en combinant plusieurs méthodes d’alignement de séquences avec trois types différents d’unités de sous-séquence : la séquence, le mot et l’étendue de caractère. Les résultats obtenus sur des jeux de données en anglais et en coréen montrent que notre technique d’ensemble fondée sur l’alignement de séquences surpasse la méthode de vote simple (hard voting) de base. La plupart des résultats de l’approche d’ensemble par alignement de séquences, avec différentes unités de sous-séquence, ont montré une amélioration du score F1 par rapport au vote simple. Le score F1 a augmenté jusqu’à 0,36 par rapport à la méthode de vote simple sur le jeu de test.