DiffCSE : Apprentissage contrastif basé sur les différences pour les embeddings de phrases

Nous proposons DiffCSE, un cadre d'apprentissage contrastif non supervisé destiné à l'apprentissage d'embeddings de phrases. DiffCSE apprend des embeddings de phrases sensibles aux différences entre une phrase originale et une phrase modifiée, où celle-ci est obtenue en masquant de manière stochastique la phrase d'origine, puis en échantillonnant à partir d'un modèle langagier masqué. Nous montrons que DiffCSE constitue un cas particulier de l'apprentissage contrastif équivariant (Dangovski et al., 2021), une généralisation de l'apprentissage contrastif qui permet d'apprendre des représentations insensibles à certains types d'augmentations, tout en restant sensibles à d'autres types d'augmentations jugées « nuisibles ». Nos expériences montrent que DiffCSE atteint des résultats de pointe parmi les méthodes non supervisées d'apprentissage de représentations de phrases, surpassant SimCSE non supervisé de 2,3 points absolus sur les tâches de similarité sémantique entre textes.