il y a 11 jours

Sur les embeddings de phrases issus des modèles linguistiques pré-entraînés

Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li

Résumé

Les représentations contextuelles pré-entraînées telles que BERT ont connu un grand succès dans le traitement du langage naturel. Toutefois, les embeddings de phrases issus des modèles linguistiques pré-entraînés sans adaptation fine ont été observés comme étant peu efficaces pour capturer le sens sémantique des phrases. Dans cet article, nous affirmons que l'information sémantique contenue dans les embeddings BERT n’est pas pleinement exploitée. Nous établissons d’abord une connexion théorique entre l’objectif d’entraînement par masquage de mot (masked language model) et la tâche de similarité sémantique, puis analysons empiriquement les embeddings de phrases BERT. Nous constatons que BERT induit systématiquement un espace sémantique non lisse et anisotrope pour les phrases, ce qui nuit à sa performance en similarité sémantique. Pour résoudre ce problème, nous proposons de transformer la distribution d’embedding de phrases anisotrope en une distribution Gaussienne lisse et isotrope à l’aide de flots normalisants (normalizing flows), appris via un objectif non supervisé. Les résultats expérimentaux montrent que la méthode BERT-flow proposée obtient des gains significatifs par rapport aux embeddings de phrases les plus performants sur diverses tâches de similarité textuelle sémantique. Le code est disponible à l’adresse suivante : https://github.com/bohanli/BERT-flow.