HyperAIHyperAI
il y a 16 jours

Trans-Encoder : Modélisation non supervisée de paires de phrases par auto-et mutuelle distillation

Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii Havrylov
Trans-Encoder : Modélisation non supervisée de paires de phrases par auto-et mutuelle distillation
Résumé

En traitement du langage naturel (NLP), un grand nombre de tâches impliquent une comparaison par paires entre deux séquences (par exemple, la similarité entre phrases ou l’identification de paraphrases). Deux approches dominantes sont généralement utilisées pour les tâches sur les paires de phrases : les bi-encodeurs et les cross-encodeurs. Les bi-encodeurs produisent des représentations fixes en dimension pour les phrases, ce qui les rend très efficaces sur le plan computationnel, mais ils souffrent généralement d’une performance inférieure à celle des cross-encodeurs. Les cross-encodeurs, quant à eux, peuvent exploiter leurs têtes d’attention pour capturer les interactions inter-phrases, ce qui améliore leur performance, mais ils nécessitent une adaptation fine (fine-tuning) pour chaque tâche et sont plus coûteux en ressources computationnelles. Dans cet article, nous proposons un modèle entièrement non supervisé de représentation de phrases, nommé Trans-Encoder, qui combine les deux paradigmes d’apprentissage dans un cadre itératif conjoint afin d’apprendre simultanément des bi-encodeurs et des cross-encodeurs améliorés. Plus précisément, à partir d’un modèle pré-entraîné sur le langage (PLM), nous commençons par transformer ce modèle en un bi-encodeur non supervisé, puis alternons itérativement entre les formulations de tâches du bi-encodeur et du cross-encodeur. À chaque itération, une formulation produit des pseudo-étiquettes qui servent de signaux d’apprentissage pour l’autre formulation. Nous proposons ensuite une extension permettant d’appliquer cette approche de self-distillation de manière parallèle sur plusieurs PLM, en utilisant la moyenne des pseudo-étiquettes pour une distillation mutuelle. Trans-Encoder, à ce jour, constitue, selon nos connaissances, le premier cross-encodeur entièrement non supervisé, tout en offrant également un bi-encodeur non supervisé d’état de l’art pour la similarité entre phrases. Les deux formulations du modèle Trans-Encoder surpassent, sur les benchmarks de similarité entre phrases, les encodeurs non supervisés les plus récents tels que Mirror-BERT et SimCSE, avec une amélioration pouvant atteindre jusqu’à 5 %.

Trans-Encoder : Modélisation non supervisée de paires de phrases par auto-et mutuelle distillation | Articles de recherche récents | HyperAI