REPRÉSENTATION DE MOTS INDÉPENDANTE DE LA FRÉQUENCE

La représentation continue des mots (aussi appelée plongement de mots ou word embedding) est un élément fondamental dans de nombreux modèles basés sur les réseaux neuronaux utilisés pour les tâches de traitement du langage naturel. Bien qu'il soit largement admis que les mots ayant une sémantique similaire devraient être proches les uns des autres dans l'espace de plongement, nous constatons que les plongements de mots appris dans plusieurs tâches sont biaisés en faveur de la fréquence des mots : les plongements des mots fréquents et peu fréquents se situent dans différentes sous-régions de l'espace de plongement, et le plongement d'un mot rare et celui d'un mot courant peuvent être éloignés même s'ils sont sémantiquement similaires. Cela rend les plongements de mots appris inefficaces, en particulier pour les mots rares, et limite par conséquent les performances de ces modèles neuronaux. Dans cet article, nous développons une méthode simple mais efficace pour apprendre des plongements de mots indifférents à la fréquence (FRAGE) en utilisant une formation antagoniste (adversarial training). Nous avons mené des études approfondies sur dix jeux de données couvrant quatre tâches de traitement du langage naturel, incluant la similarité lexicale, la modélisation linguistique, la traduction automatique et la classification textuelle. Les résultats montrent que grâce à FRAGE, nous obtenons des performances supérieures aux méthodes de base dans toutes les tâches.