HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié

Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié

Résumé

La tokenisation visuelle demeure un défi fondamental dans la mise en œuvre d’une compréhension et d’une génération visuelles unifiées au sein du cadre autoregressif. Les méthodes existantes utilisent généralement des tokeniseurs dans des espaces latents discrets afin de s’aligner sur les tokens des grands modèles linguistiques, mais les erreurs de quantification associées peuvent limiter l’expressivité sémantique et dégrader les performances de compréhension vision-langage. Pour répondre à ce défi, nous introduisons MingTok, une nouvelle famille de tokeniseurs visuels reposant sur un espace latent continu, conçue pour une génération et une compréhension autoregressive unifiées. Alors que les tâches de compréhension privilégient des caractéristiques haute dimensionnelles discriminatives, les tâches de génération préfèrent des codes bas niveau compacts. Afin de concilier ces exigences contradictoires, MingTok adopte une architecture séquentielle en trois étapes : encodage bas niveau, expansion sémantique et reconstruction visuelle. Sur cette base, Ming-UniVision élimine la nécessité de représentations visuelles spécifiques à chaque tâche, et unifie diverses tâches vision-langage sous un même cadre de prédiction autoregressive. En formulant à la fois la compréhension et la génération comme une prédiction de prochain token dans un espace continu partagé, ce cadre supporte de manière fluide des tâches multi-tours et contextuelles, telles que l’analyse itérative, la génération et l’édition. Expérimentalement, nous constatons que l’utilisation d’une représentation visuelle continue unifiée permet de concilier les exigences contradictoires imposées par les tâches de compréhension et de génération, conduisant ainsi à des performances de pointe dans les deux domaines. Nous espérons que ces résultats contribueront au développement de la tokenisation visuelle unifiée dans le domaine continu. Le code d’inférence et les poids du modèle sont désormais publiés afin de bénéficier à la communauté.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié | Articles de recherche | HyperAI