A La Carte Embedding : Une Induction Économique mais Efficace de Vecteurs de Caractéristiques Sémantiques

Les motivations telles que l'adaptation de domaine, le transfert d'apprentissage et l'apprentissage de caractéristiques ont stimulé l'intérêt pour l'induction d'embeddings pour des mots rares ou inconnus, des n-grammes, des synsets et d'autres caractéristiques textuelles. Cet article introduit l'embedding à la carte, une alternative simple et générale aux approches habituelles basées sur word2vec pour construire de telles représentations, s'appuyant sur des résultats théoriques récents concernant les embeddings du type GloVe. Notre méthode repose principalement sur une transformation linéaire qui peut être apprise efficacement à partir de vecteurs de mots préentraînés et de régression linéaire. Cette transformation peut être appliquée en temps réel dans le futur lorsqu'une nouvelle caractéristique textuelle ou un mot rare est rencontré, même si seul un exemple d'utilisation est disponible. Nous présentons un nouveau jeu de données montrant comment la méthode à la carte nécessite moins d'exemples de mots en contexte pour apprendre des embeddings de haute qualité, et nous obtenons des résultats à l'état de l'art sur une tâche avec des mots non vus (nonce) ainsi que sur certaines tâches de classification non supervisée de documents.