HyperAIHyperAI
il y a 2 mois

Attention aux caractères dans les modèles de labellisation de séquences neuronaux

Marek Rei; Gamal K.O. Crichton; Sampo Pyysalo
Attention aux caractères dans les modèles de labellisation de séquences neuronaux
Résumé

Les architectures d'étiquetage de séquences utilisent des plongements de mots (word embeddings) pour capturer la similarité, mais elles souffrent lorsqu'elles traitent des mots inconnus ou rares. Nous examinons les extensions au niveau des caractères de ces modèles et proposons une nouvelle architecture pour combiner des représentations alternatives de mots. En utilisant un mécanisme d'attention, le modèle est capable de décider dynamiquement combien d'informations utiliser à partir d'un composant au niveau des mots ou des caractères. Nous avons évalué différentes architectures sur une gamme de jeux de données d'étiquetage de séquences, et les extensions au niveau des caractères ont été trouvées pour améliorer les performances sur chaque benchmark. De plus, l'architecture basée sur l'attention proposée a fourni les meilleurs résultats même avec un nombre moindre de paramètres entraînables.

Attention aux caractères dans les modèles de labellisation de séquences neuronaux | Articles de recherche récents | HyperAI