HyperAIHyperAI

Command Palette

Search for a command to run...

Guide universel pour prédire la performance des grands modèles d’IA grâce à des modèles plus petits

La recherche menée par des chercheurs du MIT et du laboratoire MIT-IBM Watson AI Lab propose une méthode systématique pour estimer les performances des grands modèles linguistiques (LLM) à partir de modèles plus petits, en s’appuyant sur des lois d’échelle. Ces lois, qui relient la performance d’un modèle à sa taille (nombre de paramètres) et à la quantité de données d’entraînement (nombre de tokens), permettent de prédire avec précision les performances d’un modèle cible sans avoir à le former entièrement, ce qui représente des coûts considérables — parfois des millions de dollars. L’équipe a compilé un ensemble de données inédit incluant 485 modèles pré-entraînés provenant de 40 familles différentes (comme Pythia, OPT, LLaMA, Bloom, GPT, T5-Pile, etc.), accompagnés de données détaillées sur les checkpoints d’entraînement, les coûts computationnels (FLOPs), les époques d’entraînement, les graines aléatoires, ainsi que 1,9 million de mesures de performance. À partir de ces données, ils ont ajusté plus de 1 000 lois d’échelle et les ont comparées pour évaluer leur précision. Le principal résultat est une série de recommandations pratiques pour les développeurs. La précision des prédictions dépend fortement de plusieurs facteurs : l’inclusion de checkpoints intermédiaires (plutôt que seulement les pertes finales) améliore significativement la fiabilité ; les données d’entraînement avant 10 milliards de tokens sont trop bruitées et doivent être exclues. Il est conseillé d’entraîner au moins cinq modèles de tailles différentes pour assurer une robustesse suffisante, même si l’ajout de grands modèles améliore la prédiction. En cas de budget serré, il est possible de pré-entraîner le modèle cible à environ 30 % de son jeu de données et d’utiliser cette étape pour extrapoler, ou de s’inspirer des paramètres d’une famille de modèles similaires, sauf pour les modèles encodeur-décodage. Les chercheurs ont également découvert que les lois d’échelle sont plus robustes qu’on ne le pensait : les modèles partiellement entraînés conservent une grande capacité prédictive, et les étapes intermédiaires d’un modèle entièrement entraîné peuvent être utilisées comme des modèles autonomes. En outre, les lois d’échelle peuvent être appliquées pour prédire les performances même de modèles plus petits, contredisant l’idée selon laquelle les petits modèles se comportent de manière fondamentalement différente. Une surprise notable est la forte corrélation observée entre certaines hyperparamètres, suggérant que trois paramètres sur cinq suffisent à expliquer la majeure partie de la variation des performances. Cela ouvre la voie à des modèles plus simples et généralisables. Les experts soulignent que cette approche démocratise l’innovation en permettant aux équipes sans ressources colossales de faire des choix éclairés. Jacob Andreas note que les lois d’échelle ne sont pas seulement utiles pour l’entraînement, mais pourraient aussi s’appliquer à l’inference : combien de temps le modèle doit-il « penser » pour répondre correctement à une requête ? Cette question devient cruciale dans un contexte où chaque interaction utilisateur est unique. L’extension de ces lois à l’inference pourrait révolutionner l’optimisation des systèmes de langage. Cette étude, présentée à ICML 2025, marque une avancée majeure vers une estimation plus fiable, efficace et accessible des performances des LLM, en offrant un guide pratique fondé sur une analyse méta systématique.

Liens associés

Guide universel pour prédire la performance des grands modèles d’IA grâce à des modèles plus petits | Articles tendance | HyperAI