HyperAIHyperAI
Back to Headlines

L’effondrement de la mémoire : le vrai frein caché de l’IA selon le PDG de WEKA

il y a 7 jours

La crise de la mémoire en intelligence artificielle : le PDG de WEKA dévoile le véritable goulot d’étranglement de l’industrie Les analystes s’inquiètent depuis longtemps d’un possible bubble dans l’IA, souvent en mettant en avant les coûts colossaux liés aux puissances de calcul nécessaires pour entraîner les modèles les plus récents. Même les puces les plus performantes, comme la Blackwell Ultra de Nvidia avec ses 300 Go de mémoire haute vitesse, peinent à suivre les exigences d’inférence des modèles comme Meta Llama, qui peut consommer près de 500 Go par utilisation. Si l’entraînement est un processus intensif en calcul, l’inférence — c’est-à-dire le moment où le modèle répond aux utilisateurs — bute sur une limitation critique : la mémoire. Dans une conversation avec le rédacteur en chef d’The Information, Amir Efrati, Liran Zvibel, PDG de WEKA, une entreprise spécialisée dans le stockage pour l’IA et partenaire de nombreuses grandes institutions de recherche et clouds d’IA, a décrit ce phénomène comme une « muraille de mémoire » qui devient le véritable goulot d’étranglement de l’industrie. Selon Zvibel, une grande partie de la puissance des GPU est aujourd’hui gaspillée. L’infrastructure conçue pour l’entraînement est réutilisée pour l’inférence, mais les deux tâches ont des besoins fondamentalement différents. « Pendant l’entraînement, on est limité par le calcul », explique-t-il. « En inférence, c’est la mémoire qui est le facteur limitant. » Même les GPU les plus récents ne disposent que de quelques centaines de gigaoctets de mémoire rapide. Or, un simple contexte de 100 000 tokens — une exigence courante pour les modèles modernes — équivaut à 50 Go de mémoire. En quelques utilisateurs, cette limite est rapidement atteinte. « Nous limitons le nombre d’utilisateurs simultanés en fonction de la mémoire disponible », affirme Zvibel. « C’est ce qu’on appelle la muraille de mémoire. » Le résultat ? Des retards, des limites de taux d’accès, des réponses lentes — des expériences familières pour quiconque a utilisé ChatGPT. « On ne se contente pas de gaspiller des GPU, on fournit une mauvaise expérience aux utilisateurs finaux », souligne-t-il. L’avenir s’annonce encore plus tendu. Avec l’émergence de l’IA agente, les modèles devront gérer des fenêtres contextuelles plus longues, effectuer plus de raisonnements et stocker davantage d’informations pour vérification. « Avant que le nombre d’agents ne décolle, il faut résoudre ce problème », prévient Zvibel. L’économie de l’inférence diffère fondamentalement de celle de l’entraînement. « L’entraînement, c’est un coût discret : plus on investit, mieux c’est », dit-il. « Mais l’inférence doit être rentable. Elle doit correspondre à la taille de la population cible. » Certaines entreprises, comme DeepSeek, ont déjà montré qu’une meilleure gestion de la mémoire — via des optimisations comme le cache clé-valeur ou le pré-remplissage dissocié — pouvait réduire drastiquement les coûts. Cohere, client de WEKA via CoreWeave, a ainsi réduit le temps de mise en route des serveurs GPU pour l’inférence de 15 minutes à quelques secondes, améliorant de moitié le temps du premier token et multipliant par 4 à 5 le nombre de requêtes simultanées. Ces gains sont cruciaux. En début d’année, The Information révélait que l’inférence absorbait près de 60 % des revenus d’OpenAI. Zvibel prévoit que les anciens GPU, bien que moins performants, trouveront une nouvelle utilité dans l’inférence, à condition de décomposer les tâches. « Les grands laboratoires garderont les derniers GPU pour l’entraînement, mais utiliseront les anciens pour les phases d’inférence. » La phase la plus exigeante — le pré-remplissage — doit rester sur les meilleurs GPU, tandis que le décodage peut être délégué à des équipements plus anciens. Résoudre la crise de mémoire n’est pas seulement une question de performance immédiate, mais de durabilité économique et d’évolutivité à long terme. Comme le conclut Zvibel : « Contrairement à l’entraînement, où l’objectif est de réussir sur les résultats, l’inférence doit réussir sur les coûts. » Évaluation et perspectives Les propos de Zvibel reflètent une prise de conscience croissante dans l’industrie : l’IA ne peut pas progresser sans une infrastructure optimisée pour l’inférence. Des entreprises comme WEKA, CoreWeave ou DeepSeek montrent que l’efficacité mémoire est une voie viable pour réduire les coûts et améliorer l’accessibilité. Les investisseurs et les fabricants de matériel doivent désormais intégrer ces contraintes mémoire dans la conception des systèmes. Sans cela, l’IA risque de devenir inaccessible pour de nombreux utilisateurs, malgré des progrès technologiques spectaculaires.

Related Links