Command Palette
Search for a command to run...
Tianyu Fu Zihan Min Hanling Zhang Jichao Yan Guohao Dai Wanli Ouyang Yu Wang

要約
マルチLLMシステムは、多様な大規模言語モデル(LLM)の補完的な強みを活用することで、単一モデルでは達成できない性能および効率の向上を実現している。従来の設計では、LLM間の通信がテキストを通じて行われるため、内部表現が出力トークン列に変換される必要がある。このプロセスは豊かな意味情報の損失を引き起こすとともに、トークン単位での生成遅延も生じる。こうした制約に鑑み、我々は次のような問いを提起する:LLMはテキストを超えた形で通信可能だろうか?オラクル実験の結果、KVキャッシュの意味論を拡張することで、キャッシュサイズを増大させることなく応答品質を向上させることができることが示された。これは、KVキャッシュがモデル間通信の有効な媒体となり得ることを裏付けている。そこで本研究では、LLM間の直接的な意味通信を実現する新規パラダイム「キャッシュ・トゥ・キャッシュ(Cache-to-Cache, C2C)」を提案する。C2Cは、ニューラルネットワークを用いて送信モデルのKVキャッシュと受信モデルのKVキャッシュを射影・統合し、意味情報を直接転送可能にする。さらに、学習可能なゲーティング機構により、キャッシュ通信の恩恵を受けるべきターゲット層を動的に選択する。従来のテキスト通信と比較して、C2Cは両モデルが持つ深い専門的意味情報を活用しつつ、中間的なテキスト生成を明示的に行わない。実験結果から、C2Cは個別モデルと比較して平均的に8.5~10.5%高い精度を達成した。また、テキスト通信パラダイムと比較して約3.0~5.0%の精度向上を実現し、平均して2.0倍の遅延低減効果も得られた。本研究のコードは、https://github.com/thu-nics/C2C にて公開されている。