Devrions-Nous Toujours Préformer les Encodeurs avec le Masquage de Langue ?

L'apprentissage de représentations textuelles de haute qualité est fondamental pour une large gamme de tâches en traitement du langage naturel (NLP). Bien que l'entraînement préalable des encodeurs ait traditionnellement reposé sur le Modèle de Langue Masqué (MLM), des preuves récentes suggèrent que les modèles décodeurs pré-entraînés avec un Modèle de Langue Causale (CLM) peuvent être efficacement réutilisés comme encodeurs, souvent surpassant les encodeurs traditionnels dans les évaluations de représentation textuelle. Cependant, il n'est pas clair si ces gains reflètent un avantage inhérent de l'objectif CLM ou s'ils découlent de facteurs confondants tels que l'échelle du modèle et celle des données. Dans cet article, nous abordons cette question à travers une série d'ablations d'entraînement préalable à grande échelle et soigneusement contrôlées, entraînant au total 30 modèles allant de 210 millions à 1 milliard de paramètres, et effectuant plus de 15 000 runs d'ajustement fin et d'évaluation. Nous constatons que, bien que l'entraînement avec MLM offre généralement de meilleures performances dans les tâches de représentation textuelle, les modèles entraînés avec CLM sont plus efficaces en termes de données et montrent une meilleure stabilité lors de l'ajustement fin. Sur la base de ces résultats, nous montrons expérimentalement qu'une stratégie d'entraînement biphasique qui applique successivement CLM puis MLM atteint des performances optimales sous un budget d'entraînement computationnel fixe. De plus, nous démontrons que cette stratégie devient plus intéressante lorsque l'on part d'un modèle CLM pré-entraîné facilement disponible (à partir du生态系统现有的LLM),réduisant ainsi la charge computationnelle nécessaire pour entraîner des modèles d'encodeur de première classe. Nous mettons à disposition tous les artefacts du projet sur https://hf.co/MLMvsCLM afin de favoriser des recherches ultérieures.注释:在翻译中,“生态系统现有的LLM”被直接翻译为“lecosysteme existant LLM”,但为了保持法语文本的连贯性和专业性,建议将其改为“l'écosystème existant des LLMs”。以下是修改后的版本:L'apprentissage de représentations textuelles de haute qualité est fondamental pour une large gamme de tâches en traitement du langage naturel (NLP). Bien que l'entraînement préalable des encodeurs ait traditionnellement reposé sur le Modèle de Langue Masqué (MLM), des preuves récentes suggèrent que les modèles décodeurs pré-entraînés avec un Modèle de Langue Causale (CLM) peuvent être efficacement réutilisés comme encodeurs, souvent surpassant les encodeurs traditionnels dans les évaluations de représentation textuelle. Cependant, il n'est pas clair si ces gains reflètent un avantage inhérent de l'objectif CLM ou s'ils découlent de facteurs confondants tels que l'échelle du modèle et celle des données. Dans cet article, nous abordons cette question à travers une série d'ablations d'entraînement préalable à grande échelle et soigneusement contrôlées, entraînant au total 30 modèles allant de 210 millions à 1 milliard de paramètres, et effectuant plus de 15 000 runs d'ajustement fin et d'évaluation. Nous constatons que, bien que l'entraînement avec MLM offre généralement de meilleures performances dans les tâches de représentation textuelle, les modèles entraînés avec CLM sont plus efficaces en termes de données et montrent une meilleure stabilité lors de l'ajustement fin. Sur la base de ces résultats, nous montrons expérimentalement qu'une stratégie d'entraînement biphasique qui applique successivement CLM puis MLM atteint des performances optimales sous un budget d'entraînement computationnel fixe. De plus, nous démontrons que cette stratégie devient plus intéressante lorsque l'on part d'un modèle CLM pré-entraîné facilement disponible (à partir du système existant des LLMs), réduisant ainsi la charge computationnelle nécessaire pour entraîner des modèles d'encodeur de première classe. Nous mettons à disposition tous les artefacts du projet sur https://hf.co/MLMvsCLM afin de favoriser des recherches ultérieures.