Red Hat renforce l’inférence IA sur AWS avec des puces Trainium et Inferentia
Red Hat annonce une collaboration élargie avec Amazon Web Services (AWS) pour offrir une inférence IA améliorée sur les puces IA AWS Trainium et Inferentia, permettant aux entreprises de déployer des charges de travail IA en production avec plus de choix, de flexibilité et d’efficacité. Cette initiative s’inscrit dans une stratégie de transformation numérique accélérée par l’intelligence artificielle générative (IAg), dont les besoins croissants en inférence à grande échelle poussent les organisations à repenser leur infrastructure IT. Selon IDC, 40 % des entreprises devraient utiliser d’ici 2027 des puces personnalisées, comme les processeurs ARM ou des puces dédiées à l’IA/ML, pour optimiser les performances, réduire les coûts et accélérer l’innovation. Grâce à cette collaboration, Red Hat intègre son serveur d’inférence IA, basé sur le framework open source vLLM, aux puces AWS Inferentia2 et Trainium3. Cette solution permet une couche d’inférence commune compatible avec tous les modèles d’IA générative, offrant des performances accrues, une latence réduite et une meilleure efficacité coût. Les tests montrent une amélioration de 30 à 40 % du rapport performance/prix par rapport aux instances EC2 GPU actuelles. Par ailleurs, Red Hat a développé un opérateur AWS Neuron pour Red Hat OpenShift, OpenShift AI et OpenShift Service on AWS, facilitant ainsi le déploiement sécurisé et supporté des charges de travail IA sur les accélérateurs AWS. La collaboration simplifie également l’accès aux accélérateurs de pointe via des outils d’automatisation, notamment la collection Ansible certifiée amazon.ai, récemment publiée par Red Hat pour orchestrer les services IA sur AWS. En outre, Red Hat et AWS contribuent ensemble à l’optimisation d’un plugin pour les puces AWS dans le projet vLLM, auquel Red Hat est le principal contributeur commercial. vLLM, fondement du projet open source llm-d, est désormais disponible en version supportée commercialement dans Red Hat OpenShift AI 3, permettant une inférence à grande échelle. Cette avancée s’inscrit dans une longue collaboration entre Red Hat et AWS, visant à soutenir les stratégies hybrides cloud des entreprises. Elle répond aux exigences croissantes des décideurs IT en matière de gouvernance, de flexibilité et de durabilité des déploiements IAg. Red Hat présentera cette collaboration au salon AWS re:Invent 2025 (stand #839). L’opérateur AWS Neuron est déjà disponible dans l’OpenShift OperatorHub, tandis que le support du serveur d’inférence IA Red Hat pour les puces AWS est prévu en préversion développeur en janvier 2026. Des experts saluent cette initiative : Joe Fernandes (Red Hat) souligne la capacité de la solution à rendre l’IA générative plus accessible et rentable. Colin Brace (AWS) met en avant la combinaison de l’open source, de l’infrastructure AWS et des puces dédiées pour accélérer la mise en production. Jean-François Gamache (CAE) souligne l’impact sur la transformation numérique de son organisation. Anurag Agrawal (Techaisle) estime que cette collaboration permet aux CIOs de passer d’expérimentations coûteuses à une exploitation IAg durable et contrôlée, conformément à la stratégie « tout modèle, tout matériel » de Red Hat.
