Tout-sauf-le-Sommet : Posttraitement simple et efficace pour les représentations de mots

Les représentations réelles des mots ont transformé les applications de traitement du langage naturel (NLP) ; des exemples populaires sont word2vec et GloVe, reconnus pour leur capacité à capturer des régularités linguistiques. Dans cet article, nous démontrons une technique de post-traitement {\em très simple} mais contre-intuitive -- éliminer le vecteur moyen commun et quelques directions dominantes supérieures des vecteurs de mots -- qui rend les représentations prêtes à l'emploi {\em encore plus performantes}. Cette technique de post-traitement est validée empiriquement sur une variété de tâches intrinsèques au niveau lexical (similarité lexicale, catégorisation conceptuelle, analogie lexicale) et au niveau des phrases (similarité textuelle sémantique et classification de texte) sur plusieurs jeux de données et avec diverses méthodes de représentation et choix d'hyperparamètres dans plusieurs langues ; dans chaque cas, les représentations traitées sont systématiquement meilleures que les originales.