Latente Zustandsübertragung beendet LLM-Agent-Cold-Starts
Neue Forschungsarbeit stellt ILCP-für-Agenten vor: Latente Kontextpersistenz beendet Cold-Start-Problem bei Multi-Hop-LLM-Pipelines. Entwickler Anubhab Banerjee und sein Forschungsteam haben eine Architektur veröffentlicht, die den ineffizienten Kontextaufbau zwischen spezialisierten KI-Agenten eliminiert. Bisher gingen bei der Übergabe von einer Agentenkomponente zur nächsten die berechneten verstekten Zustände verloren, was zu repetitiven Vorwärtsläufen und hohem Rechenaufwand führte. Die vorgestellte Lösung überträgt diesen Zustand stattdessen als komprimiertes latentes Payload, das beim Empfänger als Soft-Prompt-Speicher wiederverwendet wird. Das Kernverfahren basiert auf Inductive Latent Context Persistence. Dabei wird der gepoolte verborgene Zustand des sendenden Agents durch einen Beta-VAE-Kompressor auf ein minimales latentes Vektorfeld reduziert. Dieses wird über eine definierte Transportgrenze übermittelt und über einen gated MLP-Projektor direkt in den Embedding-Raum des empfangenden Modells projiziert. Der Empfänger liest somit nicht den ursprünglichen Textkontext erneut, sondern beginnt die Decodierung mit den vorprojizierten Speicher-Token. Der Ansatz vermeidet tokenisierungsbedingte Latenzen und spart signifikante Rechenressourcen. Die Architektur ist direkt aus einer kürzlich angenommenen Studie zur Mobilfunktechnologie abgeleitet, die am KI4NextG-Workshop im Rahmen der ICML 2026 präsentiert wurde. Dort bewies ILCP auf Datentracks aus einem Wiener 4G- und 5G-Fahrtest, dass ein solcher latenter Zustandstransfer Ping-Pong-Handovers auf null Prozent senkt und die Vorhersagegenauigkeit nach dem Zellwechsel um durchschnittlich fünf Prozentpunkte verbessert. Die Agenten-Implementierung bildet exakt diese Logik nach, wobei die aktuellen Leistungsdaten ausdrücklich als zukünftige Roadmap gekennzeichnet sind. Der aktuelle V1-Release ist als vollständige Referenzimplementierung auf GitHub verfügbar. Er nutzt Qwen2.5-7B als Basismodell und kombiniert masked-mean-pooling, VAE-Encoding und In-Prozess-Transport zu einem nahtlosen Inferenz-Pattern. Autoren weisen darauf hin, dass es sich bei V1 um eine reine Wiring-Validierung handelt. Zahlengewerte stammen ausschließlich aus dem Telekommunikationsbereich; qualitative Agenten-Benchmarks auf offenen Frage-Antwort-Datensätzen stehen noch aus. Zudem beschränkt sich die Implementierung auf ein kryogenes Einfrieren des Empfängermodells und eine toy-level exact-match-evaluation. Fachleute sehen in der neuen Architektur einen paradigmatischen Wechsel von textbasierter Kontextweitergabe hin zu zustandsorientiertem Inferenz-Handoff. Der Ansatz integriert sich nahtlos in existierende Orchestrations-Stacks und bietet eine skalierbare Grundlage für komplexe Agentic-Workflows. Mit der Veröffentlichung des Source-Code-Codes und der klaren Abgrenzung zu Telekom-Zahlen legt die Forschungsgruppe den Grundstein für eine neue Generation effizienter, zustandserhaltender KI-Systeme.
