Apprendre une meilleure structure interne des mots pour l'étiquetage de séquences

Les modèles neuronaux basés sur les caractères ont récemment fait preuve d'une grande utilité pour de nombreuses tâches en traitement du langage naturel (NLP). Cependant, il existe un écart de sophistication entre les méthodes d'apprentissage des représentations des phrases et des mots. Alors que la plupart des modèles de caractères pour l'apprentissage des représentations des phrases sont profonds et complexes, ceux destinés à l'apprentissage des représentations des mots sont peu profonds et simples. De plus, malgré une recherche considérable sur l'apprentissage des plongements de caractères (character embeddings), il n'est toujours pas clair quel type d'architecture est le meilleur pour capturer les représentations du caractère au mot.Pour aborder ces questions, nous commençons par examiner les écarts entre les méthodes d'apprentissage des représentations des mots et des phrases. Nous menons des expériences détaillées et comparons différents modèles convolutifs de pointe, tout en étudiant également les avantages et les inconvénients de leurs composants. Par ailleurs, nous proposons IntNet, une architecture neuronale convolutive large en forme deentonnoir sans sous-échantillonnage (down-sampling) pour apprendre les représentations de la structure interne des mots en combinant leurs caractères à partir de corpus d'entraînement supervisés limités.Nous évaluons notre modèle proposé sur six jeux de données d'étiquetage séquentiel, incluant la reconnaissance d'entités nommées, l'étiquetage morpho-syntaxique (part-of-speech tagging) et le fractionnement syntaxique (syntactic chunking). Notre analyse approfondie montre que IntNet surpasse significativement les autres modèles de plongements de caractères et obtient de nouvelles performances de pointe sans faire appel à aucune connaissance ou ressource externe.