HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 14 jours

Glyph : Augmenter la taille des fenêtres contextuelles par compression visuelle et textuelle

Glyph : Augmenter la taille des fenêtres contextuelles par compression visuelle et textuelle

Résumé

Les modèles linguistiques massifs (LLM) s'appuient de plus en plus sur une modélisation à longue portée pour des tâches telles que la compréhension de documents, l'analyse de code ou le raisonnement en plusieurs étapes. Toutefois, l'extension de la fenêtre contextuelle à un niveau de millions de tokens entraîne des coûts computationnels et mémoire prohibitifs, ce qui limite la faisabilité pratique des LLM à long contexte. Dans ce travail, nous adoptons une approche différente — l'agrandissement visuel du contexte — afin de relever ce défi. Au lieu d'étendre les séquences basées sur des tokens, nous proposons Glyph, un cadre qui transforme les longs textes en images et les traite à l'aide de modèles vision-langage (VLM). Cette approche compresse considérablement l'entrée textuelle tout en préservant l'information sémantique. Nous avons également conçu une recherche génétique pilotée par un LLM afin d'identifier les configurations optimales de rendu visuel, équilibrant précision et taux de compression. À travers des expérimentations approfondies, nous démontrons que notre méthode permet une compression de 3 à 4 fois en nombre de tokens, tout en maintenant une précision comparable à celle des meilleurs LLM tels que Qwen3-8B sur divers benchmarks à long contexte. Cette compression se traduit également par un pré-remplissage et une décodage environ 4 fois plus rapides, ainsi qu'un apprentissage par rétroaction supervisée (SFT) environ 2 fois plus rapide. En outre, dans des conditions de compression extrême, un VLM à contexte de 128K peut être étendu pour traiter des tâches sur des textes de niveau 1M de tokens. Enfin, les données textuelles rendues offrent des avantages pour des tâches multimodales réelles, telles que la compréhension de documents. Le code et le modèle sont disponibles à l'adresse suivante : https://github.com/thu-coai/Glyph.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Glyph : Augmenter la taille des fenêtres contextuelles par compression visuelle et textuelle | Articles de recherche | HyperAI