Une nouvelle technologie d’intelligence artificielle compresse la mémoire des chatbots LLM jusqu’à 4 fois sans perte de performance
Une équipe de recherche dirigée par le professeur Hyun Oh Song, de l’École d’ingénierie de l’Université nationale de Séoul, a développé une nouvelle technologie d’intelligence artificielle nommée KVzip, capable de réduire de 3 à 4 fois la mémoire de conversation des chatbots basés sur les grands modèles linguistiques (LLM) dans les tâches à long contexte, comme les dialogues prolongés ou la synthèse de documents. Cette avancée, publiée sur arXiv, s’inscrit dans une démarche visant à améliorer l’efficacité des systèmes d’IA conversationnelle. La mémoire de conversation, qui stocke temporairement les échanges passés pour assurer une réponse contextuellement cohérente, s’alourdit rapidement avec la durée du dialogue, augmentant les coûts computationnels et ralentissant les réponses. KVzip résout ce problème en compressant intelligemment cette mémoire en éliminant les informations redondantes ou inutiles, tout en préservant l’essentiel pour reconstruire le contexte. Contrairement aux méthodes de compression existantes, souvent dépendantes de la requête actuelle et entraînant une perte de performance lors des questions suivantes, KVzip permet une compression réutilisable : la mémoire compressée peut être exploitée pour plusieurs requêtes futures sans nécessiter de recompression ni de dégradation de la qualité. Les tests ont montré une réduction de 3 à 4 fois de la mémoire et un gain de vitesse d’environ 2 fois, sans perte d’exactitude, sur des tâches variées comme la réponse à des questions, la recherche, le raisonnement et la compréhension de code. La technique s’est également avérée efficace sur des contextes extrêmement longs (jusqu’à 170 000 tokens) avec des modèles open-source comme Llama 3.1, Qwen 2.5 et Gemma 3. Par ailleurs, elle a été intégrée dans la bibliothèque open-source de compression de cache KV de NVIDIA, KVPress, facilitant son déploiement pratique. En raison de sa faible consommation de ressources, KVzip s’impose comme une solution prometteuse pour les environnements mobiles et edge, permettant des interactions longues et personnalisées directement sur appareil. Elle devrait être largement adoptée dans les systèmes d’entreprise, notamment dans les pipelines de génération augmentée par la recherche (RAG) et les services de chatbot personnalisés, en réduisant les coûts d’exploitation et en augmentant la capacité d’affichage concurrentiel. Le professeur Song souligne que KVzip représente une avancée majeure en permettant une mémoire compressée réutilisable, essentielle pour les agents LLM exigeant une compréhension contextuelle prolongée. Dr. Jang-Hyun Kim, principal auteur du projet, affirme que la technologie s’intègre naturellement aux applications réelles et aux systèmes embarqués, garantissant qualité constante et rapidité. Il rejoindra prochainement l’équipe de modèles fondamentaux d’IA/ML d’Apple. Par ailleurs, le laboratoire de machine learning du professeur Song a vu deux autres travaux acceptés comme affiches à NeurIPS 2025 et un article publié dans TMLR. Le premier, « Q-Palette », propose des quantificateurs à bits fractionnaires pour une allocation optimale des bits dans les LLM, améliorant de 36 % la vitesse d’inférence. Le second, « Guided-ReST », introduit un algorithme d’apprentissage par renforcement pour améliorer les stratégies de raisonnement et de recherche des LLM, augmentant de 10 % l’exactitude et de 50 % l’efficacité sur un défi de raisonnement complexe. Enfin, le travail sur la découverte causale permet une identification efficace des variables causales dans des systèmes à grande échelle, atteignant des performances de pointe sur des réseaux génétiques.
