14日前

グリフ：視覚・テキスト圧縮によるコンテキスト窓のスケーリング

Jiale Cheng Yusen Liu Xinyu Zhang Yulin Fei Wenyi Hong Ruiliang Lyu Weihan Wang Zhe Su Xiaotao Gu Xiao Liu

要約

大規模言語モデル（LLM）は、文書理解、コード解析、多段階推論などのタスクにおいて、ますます長文脈モデリングに依存するようになっている。しかし、コンテキスト窓を100万トークン規模まで拡張するには、計算コストとメモリコストが著しく増大し、長文脈LLMの実用性を制限する。本研究では、この課題に取り組むため、従来のトークンベースのシーケンス延長とは異なる視点——「視覚的文脈スケーリング」——を採用する。トークン列の延長ではなく、長文を画像にレンダリングし、視覚言語モデル（VLM）で処理するフレームワーク「Glyph」を提案する。このアプローチにより、文脈情報を保持しつつ、テキスト入力を著しく圧縮可能となる。さらに、精度と圧縮率のバランスを最適化するため、LLM駆動の遺伝的探索を設計した。広範な実験の結果、本手法は、Qwen3-8Bを含む最先端LLMと同等の精度を維持しつつ、3～4倍のトークン圧縮を達成した。また、この圧縮効果により、プレフィル（prefilling）およびデコードが約4倍高速化され、SFTトレーニングも約2倍速くなった。さらに、極限的な圧縮条件下では、128KコンテキストのVLMが100万トークン規模のテキスト処理に拡張可能であることが示された。加えて、レンダリングされたテキストデータは、文書理解を含む実世界のマルチモーダルタスクにも有効に活用できる。本研究のコードとモデルは、https://github.com/thu-coai/Glyph にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

グリフ：視覚・テキスト圧縮によるコンテキスト窓のスケーリング

Jiale Cheng Yusen Liu Xinyu Zhang Yulin Fei Wenyi Hong Ruiliang Lyu Weihan Wang Zhe Su Xiaotao Gu Xiao Liu4 more

要約

AI で AI を構築

Hyper Newsletters

Jiale Cheng Yusen Liu Xinyu Zhang Yulin Fei Wenyi Hong Ruiliang Lyu Weihan Wang Zhe Su Xiaotao Gu Xiao Liu