Command Palette
Search for a command to run...
Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié

Résumé
La tokenisation visuelle demeure un défi fondamental dans la mise en œuvre d’une compréhension et d’une génération visuelles unifiées au sein du cadre autoregressif. Les méthodes existantes utilisent généralement des tokeniseurs dans des espaces latents discrets afin de s’aligner sur les tokens des grands modèles linguistiques, mais les erreurs de quantification associées peuvent limiter l’expressivité sémantique et dégrader les performances de compréhension vision-langage. Pour répondre à ce défi, nous introduisons MingTok, une nouvelle famille de tokeniseurs visuels reposant sur un espace latent continu, conçue pour une génération et une compréhension autoregressive unifiées. Alors que les tâches de compréhension privilégient des caractéristiques haute dimensionnelles discriminatives, les tâches de génération préfèrent des codes bas niveau compacts. Afin de concilier ces exigences contradictoires, MingTok adopte une architecture séquentielle en trois étapes : encodage bas niveau, expansion sémantique et reconstruction visuelle. Sur cette base, Ming-UniVision élimine la nécessité de représentations visuelles spécifiques à chaque tâche, et unifie diverses tâches vision-langage sous un même cadre de prédiction autoregressive. En formulant à la fois la compréhension et la génération comme une prédiction de prochain token dans un espace continu partagé, ce cadre supporte de manière fluide des tâches multi-tours et contextuelles, telles que l’analyse itérative, la génération et l’édition. Expérimentalement, nous constatons que l’utilisation d’une représentation visuelle continue unifiée permet de concilier les exigences contradictoires imposées par les tâches de compréhension et de génération, conduisant ainsi à des performances de pointe dans les deux domaines. Nous espérons que ces résultats contribueront au développement de la tokenisation visuelle unifiée dans le domaine continu. Le code d’inférence et les poids du modèle sont désormais publiés afin de bénéficier à la communauté.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.