HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration du pré-entraînement auto-supervisé grâce à un modèle de langue masqué entièrement exploré

Mingzhi Zheng Dinghan Shen Yelong Shen Weizhu Chen Lin Xiao

Résumé

Le cadre du modèle de langage masqué (MLM) est largement adopté pour l'entraînement préalable non supervisé du langage. Dans cet article, nous affirmons que les masques échantillonnés aléatoirement dans le cadre MLM entraînent une variance de gradient indésirablement élevée. Ainsi, nous quantifions théoriquement cette variance de gradient en reliant la covariance du gradient à la distance de Hamming entre deux masques différents (pour une séquence de texte donnée). Afin de réduire la variance due à l’échantillonnage des masques, nous proposons une stratégie de masquage entièrement explorée, dans laquelle une séquence de texte est divisée en un certain nombre de segments non chevauchants. Ensuite, les tokens appartenant à un même segment sont masqués pendant l’entraînement. Nous démontrons, du point de vue théorique, que les gradients issus de ce nouveau schéma de masquage présentent une variance plus faible, permettant ainsi un entraînement auto-supervisé plus efficace. Nous menons des expériences approfondies sur l’entraînement préalable continu et l’entraînement préalable général à partir de zéro. Les résultats empiriques confirment que cette nouvelle stratégie de masquage surpasse de manière cohérente le masquage aléatoire standard. Une analyse détaillée de l’efficacité ainsi que des études d’ablation renforcent davantage la validité des avantages de notre stratégie de masquage entièrement explorée dans le cadre MLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp