Command Palette

Search for a command to run...

14日前

グリフ:視覚・テキスト圧縮によるコンテキスト窓のスケーリング

グリフ:視覚・テキスト圧縮によるコンテキスト窓のスケーリング

要約

大規模言語モデル(LLM)は、文書理解、コード解析、多段階推論などのタスクにおいて、ますます長文脈モデリングに依存するようになっている。しかし、コンテキスト窓を100万トークン規模まで拡張するには、計算コストとメモリコストが著しく増大し、長文脈LLMの実用性を制限する。本研究では、この課題に取り組むため、従来のトークンベースのシーケンス延長とは異なる視点——「視覚的文脈スケーリング」——を採用する。トークン列の延長ではなく、長文を画像にレンダリングし、視覚言語モデル(VLM)で処理するフレームワーク「Glyph」を提案する。このアプローチにより、文脈情報を保持しつつ、テキスト入力を著しく圧縮可能となる。さらに、精度と圧縮率のバランスを最適化するため、LLM駆動の遺伝的探索を設計した。広範な実験の結果、本手法は、Qwen3-8Bを含む最先端LLMと同等の精度を維持しつつ、3~4倍のトークン圧縮を達成した。また、この圧縮効果により、プレフィル(prefilling)およびデコードが約4倍高速化され、SFTトレーニングも約2倍速くなった。さらに、極限的な圧縮条件下では、128KコンテキストのVLMが100万トークン規模のテキスト処理に拡張可能であることが示された。加えて、レンダリングされたテキストデータは、文書理解を含む実世界のマルチモーダルタスクにも有効に活用できる。本研究のコードとモデルは、https://github.com/thu-coai/Glyph にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
グリフ:視覚・テキスト圧縮によるコンテキスト窓のスケーリング | 論文 | HyperAI超神経