HyperAIHyperAI
Back to Headlines

Google dévoile sa puissance d’inférence avec les TPUs Ironwood et une architecture révolutionnaire

il y a un mois

Google a présenté lors du sommet AI Infra à Santa Clara ses avancées majeures en matière d’inférence IA, révélant une croissance exponentielle de la charge de calcul nécessaire pour alimenter ses services d’intelligence artificielle. Depuis ses débuts, Google s’est imposé comme un pionnier de l’infrastructure technologique à grande échelle, ayant inventé des systèmes fondamentaux comme le moteur de recherche BackRub, le Google File System (GFS), MapReduce, Borg/Omega, Bigtable, Spanner, BigQuery, Dataflow, et les unités de traitement tensoriel (TPU) dédiées à l’IA. Aujourd’hui, ces infrastructures alimentent les modèles Gemini et Gemma, qui reposent sur des architectures transformer et sont entraînés et exécutés sur une flotte massive de TPUs. Les données présentées par Mark Lohmeyer, directeur général de l’infrastructure IA et informatique chez Google, montrent une augmentation fulgurante du débit d’inférence : passant de 9,7 billions de tokens par mois en avril 2024 à plus de 1 460 billions en août 2025, soit une croissance de 150 fois en 16 mois. Cette explosion est due à l’intégration généralisée de l’IA dans les produits Google, de Search à Gmail en passant par les services Cloud. Pour supporter cette charge, Google a mis en œuvre des systèmes ultra-performants, notamment les nouveaux TPUs Ironwood v7p, qui offrent 5 fois la performance de pointe et 6 fois la capacité de mémoire HBM par rapport aux Trillium v6e. Un cluster Ironwood composé de 9 216 TPUs, relié par un interconnect optique dynamique (OCS), permet une scalabilité sans précédent, avec une capacité totale de 1,77 PB de mémoire HBM — une puissance bien supérieure à celle des systèmes GPU Nvidia Blackwell à 144 chiplets. Lohmeyer a également mis en avant l’importance de la refroidissement liquide, dont Google maîtrise depuis 2014. En 2024, la capacité de refroidissement liquide de Google atteignait près d’un gigawatt, soit 70 fois plus que toute autre flotte au monde. Cette technologie, désormais en cinquième génération, sera bientôt partagée via le projet Open Compute. L’infrastructure inclut aussi des racks spécifiques pour les Ironwood, avec des configurations complexes : 7 racks par rangée, 4 TPUs par système, soit 448 TPUs par rangée — plus que les 256 prévus pour un « pod » classique. Cela suggère une architecture redondante avec des TPUs de secours intégrés, probablement pour assurer la résilience des tâches critiques. Google a également développé une pile logicielle d’inférence complète, basée sur GKE (Kubernetes géré), vLLM, un cache nommé Anywhere Cache (réduisant les latences de lecture de 70 % dans une région, de 96 % entre régions), et un système de gestion de charge intelligent appelé GKE Inference Gateway. Ce dernier utilise une équilibration de charge pilotée par l’IA pour répartir les requêtes entre les unités de calcul, en particulier en séparant les phases de prétraitement (prefill) et de génération (decode), optimisant ainsi l’utilisation des ressources. Un outil nommé GKE Inference Quickstart aide les clients à configurer ces systèmes de manière optimale. La spéculation d’inférence, une technique qui anticipe les résultats pour réduire le temps de réponse, a permis à Google de réduire de 33 fois la consommation énergétique de son modèle Gemini, une avancée cruciale pour la rentabilité. Ces innovations permettent aux clients de Google Cloud de réduire leur latence d’inférence jusqu’à 96 %, d’augmenter leur débit de 40 % et de réduire les coûts par token de 30 %. Enfin, Google a intégré des solutions Nvidia Dynamo à son écosystème, tout en privilégiant sa propre pile logicielle. Bien que celle-ci soit actuellement conçue pour les TPUs, sa portabilité sur les GPU Nvidia et AMD semble probable. Cette combinaison d’infrastructure, de logiciels et de gestion énergétique illustre la maîtrise technique et économique de Google dans le domaine de l’inférence IA, positionnant ses services comme une référence pour les entreprises souhaitant déployer l’IA à grande échelle.

Related Links