Command Palette
Search for a command to run...
Communication sémantique directe entre modèles de langage massifs par échange de cache
Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

Résumé
Les systèmes multi-LLM exploitent les forces complémentaires de divers modèles de langage à grande échelle (LLM), permettant d’atteindre des gains de performance et d’efficacité impossibles à réaliser avec un seul modèle. Dans les architectures existantes, les LLM communiquent par le biais de textes, ce qui oblige les représentations internes à être transformées en séquences de jetons de sortie. Ce processus entraîne à la fois une perte d’informations sémantiques riches et une latence liée à la génération de jetons un par un. Motivés par ces limitations, nous nous posons la question suivante : les LLM peuvent-ils communiquer au-delà du texte ? Des expériences avec un oracle montrent qu’en enrichissant la sémantique du cache KV (Key-Value Cache), il est possible d’améliorer la qualité des réponses sans augmenter la taille du cache, ce qui valide le cache KV comme un support efficace pour la communication intermodèles. Nous proposons donc C2C (Cache-to-Cache), un nouveau paradigme permettant une communication sémantique directe entre LLM. C2C utilise un réseau neuronal pour projeter et fusionner le cache KV du modèle source avec celui du modèle cible, afin de permettre un transfert sémantique direct. Un mécanisme de commutateur apprenable sélectionne les couches cibles qui bénéficient de cette communication par cache. Contrairement à la communication par texte, C2C exploite les sémantiques profondes et spécialisées des deux modèles, tout en évitant la génération explicite d’un texte intermédiaire. Les expériences montrent que C2C atteint une précision moyenne supérieure de 8,5 à 10,5 % par rapport aux modèles individuels. Il surpasse également le paradigme de communication par texte de près de 3,0 à 5,0 %, tout en offrant une accélération moyenne de 2,0 fois en latence. Le code source est disponible à l’adresse suivante : https://github.com/thu-nics/C2C.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.