Amélioration du pré-entraînement auto-supervisé grâce à un modèle de langue masqué entièrement exploré

Le cadre du modèle de langage masqué (MLM) est largement adopté pour l'entraînement préalable non supervisé du langage. Dans cet article, nous affirmons que les masques échantillonnés aléatoirement dans le cadre MLM entraînent une variance de gradient indésirablement élevée. Ainsi, nous quantifions théoriquement cette variance de gradient en reliant la covariance du gradient à la distance de Hamming entre deux masques différents (pour une séquence de texte donnée). Afin de réduire la variance due à l’échantillonnage des masques, nous proposons une stratégie de masquage entièrement explorée, dans laquelle une séquence de texte est divisée en un certain nombre de segments non chevauchants. Ensuite, les tokens appartenant à un même segment sont masqués pendant l’entraînement. Nous démontrons, du point de vue théorique, que les gradients issus de ce nouveau schéma de masquage présentent une variance plus faible, permettant ainsi un entraînement auto-supervisé plus efficace. Nous menons des expériences approfondies sur l’entraînement préalable continu et l’entraînement préalable général à partir de zéro. Les résultats empiriques confirment que cette nouvelle stratégie de masquage surpasse de manière cohérente le masquage aléatoire standard. Une analyse détaillée de l’efficacité ainsi que des études d’ablation renforcent davantage la validité des avantages de notre stratégie de masquage entièrement explorée dans le cadre MLM.