il y a 4 mois

Résumé

Les humains lisent en reconnaissant les mots comme des objets visuels — en tenant compte de leur forme, de leur disposition et de leurs motifs — avant de les associer à un sens. Cette capacité leur permet de traiter efficacement les fautes de frappe, les polices déformées ou encore les diverses écritures. Les grands modèles linguistiques modernes (LLM), en revanche, s'appuient sur une tokenisation par sous-mots, qui fragmente le texte en unités issues d'un vocabulaire fixe. Si cette approche s'avère efficace pour les langues à fort ressourcement, elle entraîne un sur-segmentation excessive pour les langues à faible ressourcement, produisant des séquences longues et linguistiquement vides, tout en augmentant considérablement la charge computationnelle. Dans ce travail, nous remettons en question ce paradigme établi et proposons une alternative centrée sur la vision. Notre méthode, SeeTok, transforme le texte en images (texte visuel) et exploite des LLM multimodaux pré-entraînés pour les interpréter, réutilisant ainsi les compétences puissantes en reconnaissance optique de caractères (OCR) et en alignement texte-visuel acquises grâce à un entraînement multimodal à grande échelle. Sur trois tâches linguistiques distinctes, SeeTok égale ou dépasse les tokeniseurs par sous-mots tout en nécessitant 4,43 fois moins de tokens et en réduisant les FLOPs de 70,5 %, tout en offrant des gains supplémentaires en généralisation interlinguistique, en robustesse aux bruits typographiques et en prise en compte de la hiérarchie linguistique. SeeTok marque un tournant vers une lecture visuelle humaine, en passant d'une tokenisation symbolique à une lecture plus naturelle et inspirée des processus cognitifs.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Multimodal

OCR

Compréhension De Document

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Multimodal

OCR

Compréhension De Document

Traitement Du Langage Naturel

Multimodal

Vision Par Ordinateur

Tâche

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Voir le texte : De la tokenisation à la lecture visuelle

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Voir le texte : De la tokenisation à la lecture visuelle

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Voir le texte : De la tokenisation à la lecture visuelle

Ling Xing Alex Jinpeng Wang Rui Yan Hongyu Qu Zechao Li Jinhui Tang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters