Command Palette
Search for a command to run...
Glyph: Skalierung von Kontextfenstern durch visuelle-Textkompression

Abstract
Große Sprachmodelle (LLMs) stützen sich zunehmend auf die Modellierung langer Kontexte für Aufgaben wie Dokumentenverstehen, Code-Analyse und mehrschrittige Schlussfolgerung. Die Skalierung der Kontextfenster auf die Million-Token-Ebene bringt jedoch unzumutbare rechnerische und speicherbasierte Kosten mit sich, was die Praktikabilität langer Kontext-LLMs einschränkt. In dieser Arbeit verfolgen wir einen alternativen Ansatz – visuelle Kontextskalierung –, um diese Herausforderung zu meistern. Anstatt die basierend auf Token aufgebaute Sequenz zu verlängern, schlagen wir Glyph vor, einen Rahmen, der lange Texte in Bilder rendern und diese mit visuellen Sprachmodellen (VLMs) verarbeiten lässt. Dieser Ansatz komprimiert den textuellen Eingabedatenstrom erheblich, während er die semantische Information weitgehend bewahrt. Zudem entwickeln wir eine genetische Suche, die von einem LLM angetrieben wird, um optimale Konfigurationen für die visuelle Darstellung zu identifizieren, die Genauigkeit und Kompression optimal abwägen. In umfangreichen Experimenten zeigen wir, dass unsere Methode eine Kompression um den Faktor 3 bis 4 erreicht, während die Genauigkeit mit führenden LLMs wie Qwen3-8B auf verschiedenen Benchmarks vergleichbar bleibt. Diese Kompression führt zudem zu einer etwa vierfach schnelleren Pre-filling- und Decoding-Phase sowie zu einer etwa zweifach schnelleren SFT-Trainingsphase. Zudem ermöglicht die extreme Kompression, dass ein VLM mit 128K-Kontext die Verarbeitung von Textaufgaben im Millionen-Token-Bereich bewältigen kann. Darüber hinaus profitieren reale multimodale Anwendungen, etwa das Dokumentenverstehen, von den gerenderten Textdaten. Quellcode und Modell sind unter https://github.com/thu-coai/Glyph verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.