HyperAIHyperAI

Command Palette

Search for a command to run...

Tensormesh lève 4,5 millions pour optimiser l'inference IA grâce à un cache intelligent

Alors que l’infrastructure dédiée à l’intelligence artificielle connaît une expansion sans précédent, la pression pour maximiser le rendement des inférences sur les GPU est plus forte que jamais. Pour des chercheurs spécialisés dans des techniques innovantes, c’est un moment idéal pour lever des fonds. C’est précisément ce moteur qui a poussé Tensormesh à sortir de l’ombre cette semaine, annonçant une levée de 4,5 millions de dollars en financement initial. Ce tour de table a été mené par Laude Ventures, avec un apport complémentaire d’investisseurs angels, dont Michael Franklin, pionnier des bases de données. Tensormesh utilise ces fonds pour développer une version commerciale de LMCache, un outil open source lancé et maintenu par Yihua Cheng, co-fondateur de la société. Bien utilisé, LMCache peut réduire les coûts d’inférence jusqu’à dix fois — une performance qui en a fait un pilier des déploiements open source, attirant même des intégrations de poids comme Google et Nvidia. Tensormesh entend désormais transformer cette réputation académique en une solution commerciale viable. Le cœur de son produit repose sur le cache clé-valeur (ou KV cache), un système mémoire qui permet de traiter des entrées complexes plus efficacement en résumant les données à leurs éléments essentiels. Dans les architectures classiques, ce cache est jeté après chaque requête — une pratique que Junchen Jiang, co-fondateur et CEO de Tensormesh, juge extrêmement inefficace. « C’est comme avoir un analyste très doué qui lit toutes les données, mais qui oublie tout après chaque question », explique-t-il. Au lieu de le supprimer, les systèmes de Tensormesh conservent ce cache, le réutilisant lorsqu’un modèle doit exécuter une tâche similaire dans une requête ultérieure. Bien que la mémoire GPU soit précieuse, cette approche permet de répartir les données sur plusieurs niveaux de stockage, au prix d’une complexité accrue, mais avec un gain substantiel en puissance d’inférence pour la même charge serveur. Ce gain est particulièrement significatif pour les interfaces de chat, où le modèle doit constamment remonter au fil de la conversation en cours. Il l’est tout autant pour les systèmes agents, qui accumulent progressivement des actions et des objectifs. En théorie, les entreprises pourraient implémenter ces améliorations elles-mêmes, mais la complexité technique rend ce projet énorme. Grâce à leur expertise approfondie dans ce domaine, le team de Tensormesh est convaincu qu’il existe une forte demande pour une solution prête à l’emploi. « Conserver le cache KV dans un système de stockage secondaire et le réutiliser efficacement sans ralentir l’ensemble du système est un problème extrêmement difficile », souligne Jiang. « Nous avons vu des entreprises embaucher jusqu’à 20 ingénieurs et passer trois ou quatre mois à construire un tel système. Avec notre produit, elles peuvent le faire de manière bien plus efficace. »

Liens associés