HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 12 jours

Voir le texte : De la tokenisation à la lecture visuelle

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

Résumé

Les humains lisent en reconnaissant les mots comme des objets visuels — en tenant compte de leur forme, de leur disposition et de leurs motifs — avant de les associer à un sens. Cette capacité leur permet de traiter efficacement les fautes de frappe, les polices déformées ou encore les diverses écritures. Les grands modèles linguistiques modernes (LLM), en revanche, s'appuient sur une tokenisation par sous-mots, qui fragmente le texte en unités issues d'un vocabulaire fixe. Si cette approche s'avère efficace pour les langues à fort ressourcement, elle entraîne un sur-segmentation excessive pour les langues à faible ressourcement, produisant des séquences longues et linguistiquement vides, tout en augmentant considérablement la charge computationnelle. Dans ce travail, nous remettons en question ce paradigme établi et proposons une alternative centrée sur la vision. Notre méthode, SeeTok, transforme le texte en images (texte visuel) et exploite des LLM multimodaux pré-entraînés pour les interpréter, réutilisant ainsi les compétences puissantes en reconnaissance optique de caractères (OCR) et en alignement texte-visuel acquises grâce à un entraînement multimodal à grande échelle. Sur trois tâches linguistiques distinctes, SeeTok égale ou dépasse les tokeniseurs par sous-mots tout en nécessitant 4,43 fois moins de tokens et en réduisant les FLOPs de 70,5 %, tout en offrant des gains supplémentaires en généralisation interlinguistique, en robustesse aux bruits typographiques et en prise en compte de la hiérarchie linguistique. SeeTok marque un tournant vers une lecture visuelle humaine, en passant d'une tokenisation symbolique à une lecture plus naturelle et inspirée des processus cognitifs.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Voir le texte : De la tokenisation à la lecture visuelle | Articles de recherche | HyperAI