il y a un mois

Communication sémantique directe entre modèles de langage massifs par échange de cache

Voir les détails de l'article Voir le code

Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

Communication sémantique directe entre modèles de langage massifs par échange de cache

Résumé

Les systèmes multi-LLM exploitent les forces complémentaires de divers modèles de langage à grande échelle (LLM), permettant d’atteindre des gains de performance et d’efficacité impossibles à réaliser avec un seul modèle. Dans les architectures existantes, les LLM communiquent par le biais de textes, ce qui oblige les représentations internes à être transformées en séquences de jetons de sortie. Ce processus entraîne à la fois une perte d’informations sémantiques riches et une latence liée à la génération de jetons un par un. Motivés par ces limitations, nous nous posons la question suivante : les LLM peuvent-ils communiquer au-delà du texte ? Des expériences avec un oracle montrent qu’en enrichissant la sémantique du cache KV (Key-Value Cache), il est possible d’améliorer la qualité des réponses sans augmenter la taille du cache, ce qui valide le cache KV comme un support efficace pour la communication intermodèles. Nous proposons donc C2C (Cache-to-Cache), un nouveau paradigme permettant une communication sémantique directe entre LLM. C2C utilise un réseau neuronal pour projeter et fusionner le cache KV du modèle source avec celui du modèle cible, afin de permettre un transfert sémantique direct. Un mécanisme de commutateur apprenable sélectionne les couches cibles qui bénéficient de cette communication par cache. Contrairement à la communication par texte, C2C exploite les sémantiques profondes et spécialisées des deux modèles, tout en évitant la génération explicite d’un texte intermédiaire. Les expériences montrent que C2C atteint une précision moyenne supérieure de 8,5 à 10,5 % par rapport aux modèles individuels. Il surpasse également le paradigme de communication par texte de près de 3,0 à 5,0 %, tout en offrant une accélération moyenne de 2,0 fois en latence. Le code source est disponible à l’adresse suivante : https://github.com/thu-nics/C2C.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Communication sémantique directe entre modèles de langage massifs par échange de cache

Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters