HyperAIHyperAI

Command Palette

Search for a command to run...

Lois d'échelle pour les mélanges de données optimaux

Mustafa Shukor Louis Bethune Dan Busbridge David Grangier Enrico Fini Alaaeldin El-Nouby Pierre Ablin

Résumé

Les grands modèles de fondation sont généralement formés sur des données provenant de plusieurs domaines, la composition des données – la proportion de chaque domaine utilisé – jouant un rôle crucial dans les performances du modèle. L'approche standard pour sélectionner cette composition repose sur des essais et erreurs, ce qui devient peu pratique pour l'entraînement préalable à grande échelle. Nous proposons une méthode systématique pour déterminer la composition optimale des données pour tout domaine cible en utilisant des lois d'échelle. Notre approche prédit avec précision la perte d'un modèle de taille NNN formé avec DDD jetons et un vecteur de poids spécifique par domaine hhh. Nous validons l'universalité de ces lois d'échelle en démontrant leur puissance prédictive dans trois contextes distincts et à grande échelle : l'entraînement préalable des grands modèles linguistiques (LLM), des modèles multimodaux natifs (NMM) et des grands modèles visuels (LVM). Nous montrons également que ces lois d'échelle peuvent être extrapolées à de nouvelles compositions de données et à différentes échelles : leurs paramètres peuvent être estimés avec précision à partir de quelques entraînements à petite échelle, puis utilisés pour estimer les performances à plus grande échelle et pour des poids de domaine inconnus. Les lois d'échelle permettent ainsi de déduire les poids optimaux par domaine pour tout domaine cible sous un budget d'entraînement donné (NNN, DDD), offrant une alternative fondée sur des principes aux méthodes coûteuses basées sur les essais et erreurs.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Lois d'échelle pour les mélanges de données optimaux | Articles | HyperAI