RetroMAE : Pré-entraînement de modèles linguistiques orientés récupération via un auto-encodeur masqué

Malgré les progrès réalisés par le pré-entraînement dans de nombreuses tâches essentielles de traitement du langage naturel (NLP), il reste à explorer des stratégies de pré-entraînement efficaces pour la récupération dense. Dans cet article, nous proposons RetroMAE, un nouveau paradigme de pré-entraînement orienté vers la récupération, fondé sur le modèle d’auto-encodeur masqué (Masked Auto-Encoder, MAE). RetroMAE se distingue par trois conceptions clés. 1) Un nouveau flux de travail MAE, dans lequel la phrase d’entrée est altérée de manière différente pour l’encodeur et le décodeur, chacun étant soumis à un masquage distinct. L’encodage de la phrase est généré à partir de l’entrée masquée de l’encodeur ; ensuite, la phrase d’origine est reconstruite à partir de cet encodage et de l’entrée masquée du décodeur, via une modélisation du langage masqué. 2) Une architecture asymétrique du modèle, comprenant un encodeur basé sur un transformateur complet du type BERT, et un décodeur constitué d’un seul couche de transformateur. 3) Des ratios de masquage asymétriques, avec un ratio modéré pour l’encodeur (15 à 30 %), et un ratio élevé pour le décodeur (50 à 70 %). Notre cadre est simple à mettre en œuvre et s’avère empiriquement compétitif : les modèles pré-entraînés améliorent de manière significative les performances de l’état de l’art sur une large gamme de benchmarks de récupération dense, tels que BEIR et MS MARCO. Le code source et les modèles pré-entraînés sont rendus accessibles au public via https://github.com/staoxiao/RetroMAE afin d’inspirer des recherches plus approfondies.