Command Palette
Search for a command to run...

要約
大規模言語モデル(LLM)は、文書理解、コード解析、多段階推論などのタスクにおいて、ますます長文脈モデリングに依存するようになっている。しかし、コンテキスト窓を100万トークン規模まで拡張するには、計算コストとメモリコストが著しく増大し、長文脈LLMの実用性を制限する。本研究では、この課題に取り組むため、従来のトークンベースのシーケンス延長とは異なる視点——「視覚的文脈スケーリング」——を採用する。トークン列の延長ではなく、長文を画像にレンダリングし、視覚言語モデル(VLM)で処理するフレームワーク「Glyph」を提案する。このアプローチにより、文脈情報を保持しつつ、テキスト入力を著しく圧縮可能となる。さらに、精度と圧縮率のバランスを最適化するため、LLM駆動の遺伝的探索を設計した。広範な実験の結果、本手法は、Qwen3-8Bを含む最先端LLMと同等の精度を維持しつつ、3~4倍のトークン圧縮を達成した。また、この圧縮効果により、プレフィル(prefilling)およびデコードが約4倍高速化され、SFTトレーニングも約2倍速くなった。さらに、極限的な圧縮条件下では、128KコンテキストのVLMが100万トークン規模のテキスト処理に拡張可能であることが示された。加えて、レンダリングされたテキストデータは、文書理解を含む実世界のマルチモーダルタスクにも有効に活用できる。本研究のコードとモデルは、https://github.com/thu-coai/Glyph にて公開されている。