Embeddings de chaînes contextuelles pour l’étiquetage de séquences

Les avancées récentes dans la modélisation du langage à l’aide de réseaux de neurones récurrents ont rendu possible la modélisation du langage en tant que distributions sur les caractères. En apprenant à prédire le caractère suivant à partir des caractères précédents, ces modèles ont démontré leur capacité à internaliser automatiquement des concepts linguistiques tels que les mots, les phrases, les subordonnées ou même le sentiment. Dans cet article, nous proposons d’exploiter les états internes d’un modèle de langage sur caractères entraîné afin de produire un nouveau type d’embeddings de mots, que nous appelons des embeddings contextuels de chaînes (contextual string embeddings). Nos embeddings proposés présentent deux propriétés distinctives : (a) ils sont entraînés sans aucune notion explicite de mots, et modélisent donc fondamentalement les mots comme des séquences de caractères ; (b) ils sont contextualisés par le texte environnant, ce qui signifie qu’un même mot peut avoir des représentations différentes selon son usage contextuel. Nous menons une évaluation comparative par rapport aux embeddings précédents et constatons que nos embeddings sont particulièrement efficaces pour les tâches en aval : sur quatre tâches classiques d’étiquetage de séquences, nous surpassons de manière constante l’état de l’art antérieur. En particulier, nous surpassons significativement les travaux antérieurs en reconnaissance d’entités nommées (NER) en anglais et en allemand, ce qui nous permet de rapporter de nouveaux scores F1 d’état de l’art sur la tâche partagée CoNLL03. Nous mettons à disposition, dans un cadre facile à utiliser, tout le code ainsi que les modèles de langage pré-entraînés à la communauté scientifique, afin de faciliter la reproduction de ces expériences et l’application de nos embeddings proposés à d’autres tâches : https://github.com/zalandoresearch/flair