Trouver la Fonction dans la Forme : Modèles de Caractères Compositionnels pour la Représentation de Mots à Vocabulaire Ouvert

Nous présentons un modèle pour la construction de représentations vectorielles de mots en composant des caractères à l'aide de LSTM bidirectionnelles. Par rapport aux modèles traditionnels de représentation de mots qui disposent d'un vecteur indépendant pour chaque type de mot, notre modèle n'exige qu'un seul vecteur par type de caractère et un ensemble fixe de paramètres pour le modèle compositionnel. Malgré la compacité de ce modèle et, plus important encore, la nature arbitraire du rapport forme-fonction dans le langage, nos représentations vectorielles de mots « composées » produisent des résultats d'état de l'art en modélisation linguistique et en étiquetage morphosyntaxique. Les avantages par rapport aux bases traditionnelles sont particulièrement marqués dans les langues à riche morphologie (par exemple, le turc).