vor 14 Tagen

Glyph: Skalierung von Kontextfenstern durch visuelle-Textkompression

Jiale Cheng Yusen Liu Xinyu Zhang Yulin Fei Wenyi Hong Ruiliang Lyu Weihan Wang Zhe Su Xiaotao Gu Xiao Liu

Abstract

Große Sprachmodelle (LLMs) stützen sich zunehmend auf die Modellierung langer Kontexte für Aufgaben wie Dokumentenverstehen, Code-Analyse und mehrschrittige Schlussfolgerung. Die Skalierung der Kontextfenster auf die Million-Token-Ebene bringt jedoch unzumutbare rechnerische und speicherbasierte Kosten mit sich, was die Praktikabilität langer Kontext-LLMs einschränkt. In dieser Arbeit verfolgen wir einen alternativen Ansatz – visuelle Kontextskalierung –, um diese Herausforderung zu meistern. Anstatt die basierend auf Token aufgebaute Sequenz zu verlängern, schlagen wir Glyph vor, einen Rahmen, der lange Texte in Bilder rendern und diese mit visuellen Sprachmodellen (VLMs) verarbeiten lässt. Dieser Ansatz komprimiert den textuellen Eingabedatenstrom erheblich, während er die semantische Information weitgehend bewahrt. Zudem entwickeln wir eine genetische Suche, die von einem LLM angetrieben wird, um optimale Konfigurationen für die visuelle Darstellung zu identifizieren, die Genauigkeit und Kompression optimal abwägen. In umfangreichen Experimenten zeigen wir, dass unsere Methode eine Kompression um den Faktor 3 bis 4 erreicht, während die Genauigkeit mit führenden LLMs wie Qwen3-8B auf verschiedenen Benchmarks vergleichbar bleibt. Diese Kompression führt zudem zu einer etwa vierfach schnelleren Pre-filling- und Decoding-Phase sowie zu einer etwa zweifach schnelleren SFT-Trainingsphase. Zudem ermöglicht die extreme Kompression, dass ein VLM mit 128K-Kontext die Verarbeitung von Textaufgaben im Millionen-Token-Bereich bewältigen kann. Darüber hinaus profitieren reale multimodale Anwendungen, etwa das Dokumentenverstehen, von den gerenderten Textdaten. Quellcode und Modell sind unter https://github.com/thu-coai/Glyph verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Glyph: Skalierung von Kontextfenstern durch visuelle-Textkompression

Jiale Cheng Yusen Liu Xinyu Zhang Yulin Fei Wenyi Hong Ruiliang Lyu Weihan Wang Zhe Su Xiaotao Gu Xiao Liu4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Jiale Cheng Yusen Liu Xinyu Zhang Yulin Fei Wenyi Hong Ruiliang Lyu Weihan Wang Zhe Su Xiaotao Gu Xiao Liu