il y a un mois

Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié

Voir les détails de l'article Voir le code

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv

Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié

Résumé

La tokenisation visuelle demeure un défi fondamental dans la mise en œuvre d’une compréhension et d’une génération visuelles unifiées au sein du cadre autoregressif. Les méthodes existantes utilisent généralement des tokeniseurs dans des espaces latents discrets afin de s’aligner sur les tokens des grands modèles linguistiques, mais les erreurs de quantification associées peuvent limiter l’expressivité sémantique et dégrader les performances de compréhension vision-langage. Pour répondre à ce défi, nous introduisons MingTok, une nouvelle famille de tokeniseurs visuels reposant sur un espace latent continu, conçue pour une génération et une compréhension autoregressive unifiées. Alors que les tâches de compréhension privilégient des caractéristiques haute dimensionnelles discriminatives, les tâches de génération préfèrent des codes bas niveau compacts. Afin de concilier ces exigences contradictoires, MingTok adopte une architecture séquentielle en trois étapes : encodage bas niveau, expansion sémantique et reconstruction visuelle. Sur cette base, Ming-UniVision élimine la nécessité de représentations visuelles spécifiques à chaque tâche, et unifie diverses tâches vision-langage sous un même cadre de prédiction autoregressive. En formulant à la fois la compréhension et la génération comme une prédiction de prochain token dans un espace continu partagé, ce cadre supporte de manière fluide des tâches multi-tours et contextuelles, telles que l’analyse itérative, la génération et l’édition. Expérimentalement, nous constatons que l’utilisation d’une représentation visuelle continue unifiée permet de concilier les exigences contradictoires imposées par les tâches de compréhension et de génération, conduisant ainsi à des performances de pointe dans les deux domaines. Nous espérons que ces résultats contribueront au développement de la tokenisation visuelle unifiée dans le domaine continu. Le code d’inférence et les poids du modèle sont désormais publiés afin de bénéficier à la communauté.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ming-UniVision : Compréhension et génération d'images conjointes à l'aide d'un tokeniseur continu unifié

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv6 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Ziyuan Huang DanDan Zheng Cheng Zou Rui Liu Xiaolong Wang Kaixiang Ji Weilong Chai Jianxin Sun Libin Wang Yongjie Lv