AIがLLMの会話記憶を3~4倍圧縮、精度維持で応答速度も2倍向上
ソウル国立大学工学部の宋賢昊(ソン・ヒョンオ)教授らの研究チームが、大規模言語モデル(LLM)ベースのチャットボットにおける会話記憶を3~4倍圧縮する新技術「KVzip」を開発した。この成果はarXivに掲載され、AI対話システムの効率性とスケーラビリティに大きな進展をもたらす。会話記憶とは、チャットボットが長時間の会話やドキュメント要約などのタスクで、過去のやり取りを保持して文脈を理解するために使う一時記憶のこと。長くなると計算コストが増し、応答速度が低下するため、記憶の圧縮が重要な課題となっている。 従来の圧縮技術は、現在の質問にのみ最適化されており、次の質問に対して性能が著しく低下するという問題があった。これに対してKVzipは、将来の複数の質問に対応できる「再利用可能な圧縮記憶」を実現。不要な情報を削除しつつ、文脈を再構築する上で必要な情報のみを保持することで、精度を維持しながら記憶容量を3~4倍削減、応答速度を約2倍高速化することに成功した。テストでは、Llama 3.1、Qwen 2.5、Gemma 3といった主要なオープンソースLLMを用いて、最大17万トークンの極長文脈にも対応。複数の質問に対して安定した品質を維持し、精度の低下も発生しなかった。 さらに、この技術はNVIDIAが公開するKVキャッシュ圧縮ライブラリ「KVPress」に統合されており、実用化が進んでいる。企業向けのRAG(検索増強生成)システムや個別化チャットボットへの導入が期待され、サーバー負荷の軽減と同時接続ユーザー数の増加が可能になる。特にモバイルやエッジ端末といったリソース制約のある環境でも、安定した長文脈対応が実現できる。 研究の主担当者であるキム・ジャンヒョン博士は、AppleのAI/ML基礎モデルチームに機械学習研究者として就任予定。宋教授は「KVzipは、長文脈理解を必要とするAIエージェントにとって、再利用可能な最小限の情報保持を可能にする画期的な技術」と評価。同研究チームは、NeurIPS 2025とTMLRにも論文を採択しており、量子化や強化学習、因果推論分野でも革新的な成果を挙げている。
