HyperAIHyperAI

Command Palette

Search for a command to run...

Logiciels, pas matériels, font avancer la frontière de l’IA

Dans le domaine de l’intelligence artificielle, une révolution silencieuse est en cours : la performance des systèmes d’inférence s’accroît bien davantage grâce au logiciel qu’à l’évolution matérielle. C’est ce que révèle une analyse approfondie des courbes de frontière de Pareto présentées par NVIDIA lors de sa conférence GTC 2025, illustrant les compromis entre débit (throughput) et latence (temps de réponse) selon différentes configurations matérielles et logicielles. À l’origine développées pour modéliser les choix économiques, ces courbes de Pareto sont désormais un outil fondamental dans l’optimisation des modèles d’IA. NVIDIA a utilisé ces courbes pour comparer des systèmes Hopper (H200) et Blackwell (B200), en particulier sur des modèles comme GPT-OSS, DeepSeek R1-0528 et Llama 3.3 70B Instruct, dans le cadre du benchmark InferenceMax v1. Les résultats montrent que l’architecture Blackwell, combinée à des optimisations logicielles comme Dynamo et TensorRT, permet une augmentation de performance multiplicative : jusqu’à 25 à 31 fois plus de tokens par seconde par mégawatt, et jusqu’à 5 fois plus de tokens par utilisateur, selon les points optimaux du frontière. Ce gain spectaculaire ne vient pas uniquement du matériel. En réalité, la majorité de l’amélioration provient du logiciel. Entre août et octobre 2024, NVIDIA a vu la courbe de Pareto pour le modèle GPT-OSS se déplacer de manière exponentielle : un doublement du débit sur l’ensemble de la courbe en moins de deux mois, suivi d’une extension significative des extrémités, avec des performances dépassant 60 000 tokens par seconde par GPU pour un petit nombre d’utilisateurs, et une interactivité maximale de près de 500 tokens par seconde par utilisateur. Des optimisations logicielles comme la parallélisation avancée des accès mémoire via NVSwitch, puis l’introduction de la prédiction multi-token (spéculation d’inférence), ont permis de doubler ou tripler les performances en quelques jours seulement. Ce phénomène illustre une tendance clé : où autrefois une amélioration logicielle de 5x prenait deux ans, elle se produit aujourd’hui en quelques semaines. Cela souligne que, dans l’ère de l’IA générative, la vitesse d’innovation logicielle dépasse désormais celle du matériel. Même si 80 % des revenus de NVIDIA proviennent du matériel, 80 % de ses employés travaillent sur le logiciel, et c’est ce dernier qui génère environ 60 % des gains de performance par génération de GPU. Ces progrès ont des conséquences économiques majeures. Un système optimisé peut réduire de 90 % le coût par million de tokens, en rendant l’inférence plus efficace, plus rapide et plus économe en énergie. L’industrie de l’IA ne se déplace plus seulement vers des puces plus puissantes, mais vers des logiciels capables d’exploiter pleinement les ressources disponibles, en temps réel. En somme, le front de Pareto n’est plus figé : il se déplace constamment, poussé par des avancées logicielles rapides et ciblées. Ce changement de dynamique signifie que rester à jour sur les mises à jour logicielles est aussi crucial que d’acheter le dernier GPU. L’avenir de l’IA, à l’image de la courbe de Pareto, est de plus en plus déterminé par l’ingéniosité logicielle que par la puissance brute du matériel.

Liens associés

Logiciels, pas matériels, font avancer la frontière de l’IA | Articles tendance | HyperAI