HyperAIHyperAI

Command Palette

Search for a command to run...

RetroMAE : Pré-entraînement de modèles linguistiques orientés récupération via un auto-encodeur masqué

Shitao Xiao Zheng Liu Yingxia Shao Zhao Cao

Résumé

Malgré les progrès réalisés par le pré-entraînement dans de nombreuses tâches essentielles de traitement du langage naturel (NLP), il reste à explorer des stratégies de pré-entraînement efficaces pour la récupération dense. Dans cet article, nous proposons RetroMAE, un nouveau paradigme de pré-entraînement orienté vers la récupération, fondé sur le modèle d’auto-encodeur masqué (Masked Auto-Encoder, MAE). RetroMAE se distingue par trois conceptions clés. 1) Un nouveau flux de travail MAE, dans lequel la phrase d’entrée est altérée de manière différente pour l’encodeur et le décodeur, chacun étant soumis à un masquage distinct. L’encodage de la phrase est généré à partir de l’entrée masquée de l’encodeur ; ensuite, la phrase d’origine est reconstruite à partir de cet encodage et de l’entrée masquée du décodeur, via une modélisation du langage masqué. 2) Une architecture asymétrique du modèle, comprenant un encodeur basé sur un transformateur complet du type BERT, et un décodeur constitué d’un seul couche de transformateur. 3) Des ratios de masquage asymétriques, avec un ratio modéré pour l’encodeur (15 à 30 %), et un ratio élevé pour le décodeur (50 à 70 %). Notre cadre est simple à mettre en œuvre et s’avère empiriquement compétitif : les modèles pré-entraînés améliorent de manière significative les performances de l’état de l’art sur une large gamme de benchmarks de récupération dense, tels que BEIR et MS MARCO. Le code source et les modèles pré-entraînés sont rendus accessibles au public via https://github.com/staoxiao/RetroMAE afin d’inspirer des recherches plus approfondies.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RetroMAE : Pré-entraînement de modèles linguistiques orientés récupération via un auto-encodeur masqué | Articles | HyperAI