OpenAI Dévoile les Fondements d’un Calcul Global pour l’IA Générationnelle
Richard Ho, responsable matériel chez OpenAI, a présenté lors du sommet AI Infra à Santa Clara une vision ambitieuse du futur de l’informatique à grande échelle, essentielle à l’essor des systèmes d’intelligence artificielle générative (GenAI). Selon lui, pour que l’IA devienne véritablement omniprésente, il faudra dépasser les limites des infrastructures actuelles et construire des « ordinateurs mondiaux » capables de gérer des charges de calcul extrêmement complexes, bien au-delà de celles observées durant les bulles Internet ou le développement du Big Data. Ce nouveau paradigme repose sur une croissance exponentielle du calcul nécessaire pour entraîner les modèles, illustrée par une courbe montrant l’évolution de la puissance de calcul (en flops) nécessaire pour atteindre des performances sur le test MMLU. GPT-4 a marqué une inflexion notable, et les modèles futurs comme GPT-5 (estimé à 10²⁷ flops) ou o3 (autour de 10²⁶ flops) pourraient approcher ou dépasser 100 % de score, rendant le test lui-même peu pertinent, selon Ho. Une autre courbe met en lumière l’expansion vertigineuse du nombre de paramètres des modèles, passant d’AlexNet (60 millions en 2012) à GPT-4 (1,5 trillion de paramètres estimés). Malgré une certaine stabilisation de la courbe de croissance du calcul entre GPT-3 et GPT-4, l’évolution reste exponentielle, rendue possible grâce à des avancées dans la précision des calculs (float et integer réduits) et à l’optimisation des formats de données. Cependant, ces entraînements restent coûteux, et leur retour sur investissement n’est encore clairement établi que pour quelques acteurs comme Nvidia et les grands constructeurs de modèles. Ho a mis en avant une transformation majeure : le passage des interactions humaines ponctuelles vers des workflows agents longs et actifs. Contrairement aux chatbots traditionnels, les agents futurs seront persistants, fonctionnant en arrière-plan pendant des jours, accomplissant des tâches complexes en collaboration. Cela impose une infrastructure étatique, avec une mémoire persistante, des interconnexions à faible latence pour synchroniser les agents, et une gestion rigoureuse des délais de traitement, notamment des « latences de queue » (tail latencies), qui peuvent compromettre l’efficacité des chaînes de traitement. L’un des principaux défis soulignés par Ho est la tension croissante entre performance, coût, sécurité et fiabilité. Il insiste sur l’importance d’intégrer la sécurité au niveau matériel, en particulier pour la « mise en conformité » (alignment) des modèles. Il propose des interrupteurs d’urgence en temps réel dans les tissus d’orchestration, des capteurs de surveillance dans les puces pour détecter des comportements anormaux, ainsi que des environnements sécurisés (trusted execution) et des chemins d’exécution fiables au niveau du silicium. Il appelle à une nouvelle infrastructure, dotée d’observabilité intégrée, de benchmarks adaptés aux architectures agentes, et de tests rigoureux sur les réseaux optiques, dont la fiabilité reste encore à prouver. Enfin, Ho plaide pour une coordination renforcée entre les fonderies, les fabricants de paquetages, les hyperscalers et les fournisseurs de cloud, afin de garantir la double sourcing de composants critiques. Bien que cette vision soit ambitieuse, elle reflète une prise de conscience profonde des limites actuelles de l’infrastructure IA et des enjeux systémiques à venir. Avec son parcours chez Arm, Google et Lightmatter, Ho incarne une expertise transversale qui pourrait permettre à OpenAI de repenser radicalement l’architecture du calcul pour l’ère des agents autonomes.