OpenAI révèle la guerre secrète pour les GPU : « Un vrai cauchemar »
Greg Brockman, président d’OpenAI, a décrit la répartition interne des unités de traitement graphique (GPU) au sein de l’entreprise comme une « souffrance » — une métaphore forte pour décrire un processus hautement stratégique, émotionnel et exigeant. Dans une interview publiée jeudi sur le podcast Matthew Berman, il a expliqué que chaque demande de ressources informatiques soulève des dilemmes complexes, car chaque projet présenté par une équipe est souvent prometteur, voire révolutionnaire. « Tu vois toutes ces choses incroyables, et quelqu’un te présente une autre idée géniale. Tu penses : oui, c’est incroyable », a-t-il confié, soulignant la difficulté de choisir entre plusieurs priorités légitimes. OpenAI divise son pouvoir de calcul entre deux grands axes : la recherche fondamentale, pilotée par son scientifique en chef et responsable de la recherche, et les produits appliqués, dont la répartition est décidée par la direction supérieure, notamment Sam Altman et Fidji Simo, chef des applications. À un niveau opérationnel, une petite équipe — dont Kevin Park, responsable de la réaffectation des GPU — gère quotidiennement les transferts de ressources, en libérant des capacités quand des projets s’achèvent. « Tu vas le voir et tu dis : “J’ai besoin de plus de GPU pour ce nouveau projet.” Et il te répond : “Il y a cinq projets qui s’arrêtent, on peut réallouer.” » a raconté Brockman. Cette gestion rigoureuse reflète la rareté chronique des GPU, un problème que OpenAI a longtemps mis en avant. Le pouvoir de calcul est en effet le moteur de la productivité de l’ensemble des équipes. « Les gens s’attachent vraiment à ces ressources. L’énergie émotionnelle derrière “Est-ce que j’aurai mon calcul ?” est quelque chose que tu ne peux pas sous-estimer », a insisté Brockman. Ce contexte de pénurie a poussé l’entreprise à repenser ses priorités : plus de GPU signifie plus d’IA utilisable, comme l’a souligné Kevin Weil, directeur produit d’OpenAI, en août dernier. « Plus on a de GPU, plus on utilisera l’IA. » Il a comparé cette dynamique à l’essor des vidéos, rendu possible par une augmentation de la bande passante. Sam Altman a récemment annoncé le lancement de nouveaux produits très exigeants en calcul, dont certains seront réservés aux abonnés Pro ou facturés en supplément, en raison des coûts élevés. Il présente cette stratégie comme une expérience visant à pousser les limites de l’infrastructure actuelle : « On veut aussi découvrir ce qui est possible quand on jette beaucoup de calcul, aux coûts actuels des modèles, sur de nouvelles idées intéressantes. » D’autres géants technologiques, comme Meta, adoptent une approche similaire. Mark Zuckerberg a récemment déclaré que Meta considère « le calcul par chercheur » comme un avantage concurrentiel, et que l’entreprise dépense davantage que ses concurrents pour des GPU et des infrastructures personnalisées. Cette course aux ressources matérielles illustre une tendance majeure dans l’industrie de l’IA : la puissance de calcul devient aussi stratégique que le talent ou l’innovation algorithmique.
