Amazon dévoile son puce Trainium, plébiscitée par Apple et OpenAI
Dans le contexte de l'accord d'investissement de 5 milliards de dollars conclu entre Amazon et OpenAI, un journaliste de TechCrunch a été invité à visiter le laboratoire de R&D des puces Trainium situé à Austin chez Amazon. Ce laboratoire constitue une base clé pour AWS afin de contrer la domination de Nvidia et de réduire les coûts liés à l'entraînement et au raisonnement en intelligence artificielle. À ce jour, les puces Trainium ont reçu l'éloge d'anthropique, d'OpenAI et même d'Apple ; parmi celles-ci, le modèle Claude d'Anthropic fonctionne sur plus d'un million de puces Trainium2. Le cœur de cette collaboration réside dans la capacité qu'Amazon s'engage à fournir jusqu'à 2 gigawatts de puissance de calcul basée sur Trainium à OpenAI. Malgré une production limitée, Trainium gagne rapidement du terrain grâce à ses avantages significatifs tant en termes de performance que de coût. La dernière puce Trainium3, associée aux nouveaux commutateurs Neuron, permet une interconnexion efficace entre les puces, réduisant ainsi les coûts d'exécution d'environ 50 % par rapport aux services cloud traditionnels, toutes performances égales. Plus important encore, Trainium prend désormais en charge les principaux frameworks open-source tels que PyTorch : les développeurs n'ont besoin que d'une modification minime du code pour migrer, abaissant considérablement les barrières à l'adoption. Au-delà des puces elles-mêmes, Amazon a conçu des composants serveur dédiés, incluant la technologie de refroidissement liquide et la plateforme de gestion virtuelle Nitro, afin d'améliorer davantage l'efficacité énergétique et les performances. L'équipe doit mener des tests d'ingénierie intensifs lors de la phase de « démarrage » des puces, résolvant via soudure in situ et essais divers des problèmes complexes comme la dissipation thermique et les connexions. Actuellement, l'un des plus grands clusters de calcul IA mondiaux, nommé Project Rainier, déploie déjà 500 000 puces Trainium2 exclusivement au service d'Anthropic. Bien que l'intégration d'OpenAI ait suscité beaucoup d'attention, l'équipe technique concentre actuellement ses efforts sur Anthropic et les services internes d'Amazon, tout en ayant entamé le développement de la prochaine génération, Trainium4. Andy Jassy, PDG d'Amazon, place de grandes espérances dans cette activité de conception interne de puces, la considérant comme un pilier central de croissance future pour AWS. Avec le déploiement complet de Trainium dans les domaines de l'entraînement et du raisonnement, Amazon tente de remodeler le paysage de l'infrastructure d'intelligence artificiale grâce à des solutions matérielles intégrant verticalement tous les maillons de la chaîne.
