Command Palette

Search for a command to run...

14 天前

Glyph:通过视觉-文本压缩扩展上下文窗口

Glyph:通过视觉-文本压缩扩展上下文窗口

摘要

大型语言模型(LLMs)在文档理解、代码分析和多步推理等任务中,越来越依赖长上下文建模。然而,将上下文窗口扩展至百万级 token 会带来极高的计算与内存开销,严重限制了长上下文 LLM 的实际应用。在本研究中,我们从一个全新的视角——视觉上下文扩展——来应对这一挑战。不同于传统地延长基于 token 的序列,我们提出 Glyph 框架,将长文本渲染为图像,并通过视觉-语言模型(VLMs)进行处理。该方法在大幅压缩文本输入的同时,有效保留了语义信息。我们进一步设计了一种由 LLM 驱动的遗传搜索算法,用于自动寻优视觉渲染配置,以在准确率与压缩比之间实现最佳平衡。通过大量实验,我们证明该方法在多个长上下文基准测试中,实现了 3-4 倍的 token 压缩率,同时保持了与 Qwen3-8B 等先进 LLM 相当的性能。此外,该压缩策略使预填充(prefilling)和解码速度提升约 4 倍,监督微调(SFT)训练速度提升约 2 倍。在极端压缩条件下,一个支持 128K 上下文的 VLM 可扩展处理百万 token 级别的文本任务。同时,所生成的图像化文本数据在真实世界的多模态任务(如文档理解)中也展现出显著优势。相关代码与模型已开源,地址为:https://github.com/thu-coai/Glyph。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Glyph:通过视觉-文本压缩扩展上下文窗口 | 论文 | HyperAI超神经