Comment optimiser l’entraînement des LLM : une nouvelle méthode pour prédire la performance avec des lois d’échelle efficaces
La construction de lois d’échelle pour l’entraînement efficace des grands modèles linguistiques (LLM) et la maximisation du budget est devenue une priorité cruciale face aux coûts élevés liés à leur développement. En effet, former un LLM peut coûter des millions de dollars, ce qui oblige les équipes à prendre des décisions stratégiques précises sur l’architecture du modèle, les optimiseurs, les jeux de données et les techniques d’entraînement. Pour anticiper la performance d’un modèle à grande échelle sans le former entièrement, les chercheurs s’appuient sur les lois d’échelle — des modèles mathématiques qui relient la performance d’un grand modèle à celle de modèles plus petits et moins coûteux de la même famille. Ces lois permettent d’estimer la perte (loss) d’un modèle cible à partir de données issues de modèles plus petits, en fonction du nombre de paramètres et du nombre de tokens utilisés pendant l’entraînement. Une nouvelle étude menée par des chercheurs du MIT et du MIT-IBM Watson AI Lab s’attaque à un défi majeur : la prolifération de méthodes différentes pour construire des lois d’échelle, souvent incohérentes ou peu fiables. Pour y remédier, l’équipe a créé un ensemble de données massif comprenant 485 modèles pré-entraînés provenant de 40 familles différentes (comme Pythia, OPT, LLaMA, Bloom, T5-Pile, GPT, etc.), accompagnés de données sur les checkpoints d’entraînement, les coûts computationnels (FLOPs), les epochs et près de 1,9 million de métriques de performance. À partir de ces données, ils ont ajusté plus de 1 000 lois d’échelle et les ont comparées en termes de précision, en utilisant l’erreur relative absolue (ARE) comme indicateur. Les résultats révèlent plusieurs recommandations pratiques. Une erreur de prédiction de 4 % est le seuil théorique optimal, limité par le bruit d’aléa des graines d’entraînement, mais une erreur jusqu’à 20 % reste utile pour la prise de décision. L’inclusion de checkpoints intermédiaires — notamment après 10 milliards de tokens — améliore significativement la fiabilité des prédictions, tandis que les données très précoces sont trop bruyantes. Il est préférable d’entraîner plusieurs modèles de tailles variées (au moins cinq) plutôt que de se concentrer uniquement sur des modèles plus grands. En outre, on peut économiser du budget en entraînant partiellement le modèle cible à environ 30 % de son jeu de données, puis en utilisant cette information pour extrapoler. Dans les cas de contraintes budgétaires sévères, il est possible de s’appuyer sur des lois d’échelle d’une famille de modèles similaire, bien que cette approche soit moins fiable pour les modèles encodeur-décodage. Une découverte inattendue est que les modèles partiellement entraînés ou les étapes intermédiaires d’un modèle entièrement entraîné conservent une grande capacité prédictive — sans coût supplémentaire, puisqu’ils sont déjà disponibles. Les chercheurs ont également observé une forte corrélation entre les hyperparamètres de différentes familles de modèles, suggérant que trois d’entre eux expliquent presque toute la variation du comportement des modèles. Cela ouvre la voie à des lois d’échelle plus générales et transférables. Enfin, les auteurs prévoient d’élargir leur analyse à l’inference, en étudiant comment la performance évolue selon le temps de réflexion ou le nombre d’échantillons générés par le modèle. Cette extension pourrait devenir essentielle, car les utilisateurs interagissent de manière dynamique avec les modèles, nécessitant des prédictions en temps réel de la charge computationnelle nécessaire pour produire une réponse optimale. Cette recherche, soutenue par le MIT-IBM Watson AI Lab et une bourse Sloan, offre un cadre systématique, accessible et robuste pour optimiser l’entraînement des LLM, rendant les lois d’échelle plus fiables, efficaces et démocratiques.