GPU à 7 modèles en parallèle : la révolution de l’efficacité au cœur de l’IA, avec une réduction de 82 % des ressources
Grâce à une avancée technologique majeure, une équipe conjointe de l’Université de Pékin et d’Alibaba a réussi à réduire de 82 % la consommation de ressources GPU dans le service d’inférence d’IA, en permettant à un seul GPU d’héberger jusqu’à sept modèles simultanément. Ce système, baptisé Aegaeon, a été présenté lors du SOSP 2025 (Symposium on Operating Systems Principles), l’un des sommets mondiaux en informatique systèmes, et co-écrit par Zhou Jingren, directeur technique d’Alibaba Cloud. Aegaeon repose sur une approche révolutionnaire de mise à l’échelle automatique au niveau du token, permettant une gestion fine des ressources GPU. Contrairement aux solutions existantes, qui opèrent à l’échelle de la requête ou du modèle, Aegaeon ajuste dynamiquement les ressources à chaque token généré — une unité fondamentale dans les processus d’inférence des grands modèles. Cette granularité extrême permet une virtualisation efficace des GPU, où plusieurs modèles peuvent partager un même matériel sans compromettre les performances ni la qualité du service. Le système atteint une efficacité remarquable : dans des tests représentatifs, il réduit le nombre de GPU nécessaires pour servir dix modèles de 1 192 à seulement 213, soit une économie de 82 % des ressources. Il maintient également une demande de requêtes deux à deux fois et demie plus élevée, tout en offrant une débit utile 1,5 à 9 fois supérieur à celui des solutions concurrentes. Pour y parvenir, Aegaeon surmonte deux défis techniques majeurs. Premièrement, il résout le problème complexe de la planification au niveau du token, en intégrant simultanément la gestion du traitement des tokens et la mise à l’échelle automatique. Il adopte une architecture décomposée en deux phases : pré-remplissage (pour le premier token) et décodage (pour les suivants), chacune gérée de manière indépendante. Une file d’attente FIFO groupée optimise le temps de réponse du premier token, tandis qu’un planificateur fine ajuste les ressources en temps réel. Deuxièmement, Aegaeon élimine les goulets d’étranglement liés à la mise à l’échelle au niveau du token. Les solutions antérieures échouaient ici car elles devaient gérer des opérations coûteuses comme le swap de mémoire KV, la fragmentation de la mémoire GPU, ou la reinitialisation du moteur d’inférence, pouvant prendre plusieurs secondes. Aegaeon réduit ces délais de 97 % grâce à trois innovations clés : Réutilisation des composants : une analyse approfondie du moteur d’inférence a permis d’identifier des étapes réutilisables lors des redémarrages. Gestion explicite de la mémoire : au lieu de dépendre du système de gestion standard, Aegaeon utilise une mémoire tampon gérée de manière autonome, allouée en bloc au démarrage, avec une allocation par incrémentation de pointeur — permettant une libération instantanée par réinitialisation du pointeur. Synchronisation fine des caches KV : une mécanique de synchronisation granulaire permet de découpler les opérations de transfert et d’exécution, maximisant le chevauchement des tâches. Cette architecture garantit une fragmentation mémoire nulle, fondamentale pour la consolidation efficace des modèles. En outre, Aegaeon utilise un cache partagé sur le système hôte pour stocker les poids des modèles, ainsi que des tampons temporaires dédiés par GPU, permettant des chargements rapides via une copie multithreadée et en pipeline — comparable aux meilleures solutions existantes. Le système est déjà déployé en version Beta dans Alibaba Cloud Model Studio, où il soutient dix modèles simultanément. Cette avancée marque une véritable rupture : elle permet de passer d’un modèle « ligne dédiée » à une véritable « autoroute numérique » pour les modèles d’IA. À l’ère du « supermarché des modèles », où des centaines ou milliers de modèles coexistent, Aegaeon ouvre la voie à une utilisation optimale des ressources, où chaque utilisateur peut sélectionner instantanément le modèle le plus adapté, sans se soucier du coût ou de la complexité sous-jacente du déploiement. En résumé, Aegaeon ne se contente pas d’améliorer l’efficacité — il réinvente la manière dont les infrastructures d’IA sont conçues, en rendant possible une époque où les modèles d’intelligence artificielle sont non seulement puissants, mais aussi accessibles, flexibles et économiquement viables.
