Command Palette
Search for a command to run...
MANZANO : Un modèle multimodal unifié simple et évolutif avec un tokenizeur visuel hybride

Résumé
Les modèles linguistiques à grande échelle (LLM) multimodaux unifiés capables à la fois de comprendre et de générer du contenu visuel offrent un potentiel considérable. Toutefois, les modèles open source existants souffrent souvent d’un compromis de performance entre ces deux capacités. Nous présentons Manzano, un cadre unifié simple et évolutif qui réduit considérablement cette tension en associant un tokeniseur hybride à une recette d’entraînement soigneusement conçue. Un seul encodeur visuel partagé alimente deux adaptateurs légers, qui produisent respectivement des embeddings continus pour la compréhension image-texte et des tokens discrets pour la génération texte-image au sein d’un espace sémantique commun. Un LLM autoregressif unifié prédit les sémantiques de haut niveau sous forme de tokens textuels et d’images, tandis qu’un décodeur de diffusion auxiliaire traduit ultérieurement les tokens d’image en pixels. Cette architecture, combinée à une recette d’entraînement unifiée sur des données de compréhension et de génération, permet un apprentissage conjoint évolutif des deux capacités. Manzano atteint des résultats de pointe parmi les modèles unifiés, et se montre compétitif face aux modèles spécialisés, notamment sur les évaluations riches en texte. Nos études montrent des conflits entre tâches minimes et des gains constants avec l’augmentation de la taille du modèle, ce qui valide notre choix de conception d’un tokeniseur hybride.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.