il y a 9 jours

Lois d'échelle pour les mélanges de données optimaux

Mustafa Shukor; Louis Bethune; Dan Busbridge; David Grangier; Enrico Fini; Alaaeldin El-Nouby; Pierre Ablin

Résumé

Les grands modèles de fondation sont généralement formés sur des données provenant de plusieurs domaines, la composition des données – la proportion de chaque domaine utilisé – jouant un rôle crucial dans les performances du modèle. L'approche standard pour sélectionner cette composition repose sur des essais et erreurs, ce qui devient peu pratique pour l'entraînement préalable à grande échelle. Nous proposons une méthode systématique pour déterminer la composition optimale des données pour tout domaine cible en utilisant des lois d'échelle. Notre approche prédit avec précision la perte d'un modèle de taille $N$ formé avec $D$ jetons et un vecteur de poids spécifique par domaine $h$. Nous validons l'universalité de ces lois d'échelle en démontrant leur puissance prédictive dans trois contextes distincts et à grande échelle : l'entraînement préalable des grands modèles linguistiques (LLM), des modèles multimodaux natifs (NMM) et des grands modèles visuels (LVM). Nous montrons également que ces lois d'échelle peuvent être extrapolées à de nouvelles compositions de données et à différentes échelles : leurs paramètres peuvent être estimés avec précision à partir de quelques entraînements à petite échelle, puis utilisés pour estimer les performances à plus grande échelle et pour des poids de domaine inconnus. Les lois d'échelle permettent ainsi de déduire les poids optimaux par domaine pour tout domaine cible sous un budget d'entraînement donné ($N$, $D$), offrant une alternative fondée sur des principes aux méthodes coûteuses basées sur les essais et erreurs.