Command Palette
Search for a command to run...
Cache-zu-Cache: Direkte semantische Kommunikation zwischen großen Sprachmodellen
Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

Abstract
Mehrfach-LLM-Systeme nutzen die ergänzenden Stärken verschiedener großer Sprachmodelle aus und erreichen Leistungs- und Effizienzgewinne, die mit einem einzelnen Modell nicht möglich sind. In bestehenden Architekturen kommunizieren LLMs über Text, wodurch interne Darstellungen in Ausgabetokenfolgen transformiert werden müssen. Dieser Prozess führt sowohl zum Verlust reicher semantischer Informationen als auch zu latenzbedingten Verzögerungen bei der Token-für-Token-Generierung. Ausgehend von diesen Beschränkungen stellen wir die Frage: Können LLMs über Text hinaus kommunizieren? Oracle-Experimente zeigen, dass eine Verfeinerung der Semantik des KV-Caches die Antwortqualität verbessern kann, ohne die Cache-Größe zu erhöhen, was die Eignung des KV-Caches als effektives Medium für die Inter-Modell-Kommunikation unterstreicht. Daraus leiten wir C2C (Cache-to-Cache) ein – ein neues Paradigma für die direkte semantische Kommunikation zwischen LLMs. C2C verwendet ein neuronales Netzwerk, um den KV-Cache des Quellmodells mit dem des Zielmodells zu projizieren und zu fusionieren, um eine direkte semantische Übertragung zu ermöglichen. Ein lernbarer Gating-Mechanismus wählt diejenigen Schichten des Zielmodells aus, die von der Cache-Kommunikation profitieren. Im Vergleich zur Textkommunikation nutzt C2C die tiefen, spezialisierten Semantiken beider Modelle, ohne explizite Zwischentextgenerierung zu erfordern. Experimente zeigen, dass C2C eine durchschnittliche Genauigkeit um 8,5–10,5 % höher erzielt als einzelne Modelle. Zudem übertrifft C2C die Textkommunikationsparadigmen um etwa 3,0–5,0 %, während gleichzeitig eine durchschnittliche Geschwindigkeitssteigerung um das 2,0-fache bei der Latenz erreicht wird. Der Quellcode ist unter https://github.com/thu-nics/C2C verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.