HyperAIHyperAI
il y a 17 jours

Extension des modèles multi-modaux autoregressifs : pré-entraînement et ajustement par instruction

Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan
Extension des modèles multi-modaux autoregressifs : pré-entraînement et ajustement par instruction
Résumé

Nous présentons CM3Leon (prononcé « Chameleon »), un modèle linguistique multimodal à décoder unique, basé sur les jetons et enrichi par récupération, capable de générer et de compléter à la fois du texte et des images. CM3Leon repose sur l'architecture multimodale CM3, mais démontre également les avantages extrêmes obtenus grâce à une mise à l’échelle importante et une adaptation fine sur des données d’instruction plus diversifiées. Il s’agit du premier modèle multimodal entraîné selon une recette inspirée des modèles linguistiques exclusivement textuels, incluant une phase pré-entraînement à grande échelle enrichie par récupération, suivie d’une deuxième phase de fine-tuning supervisé multi-tâches (SFT). Il s’agit également d’un modèle polyvalent pouvant effectuer à la fois la génération image à partir de texte et la génération texte à partir d’image, ce qui nous permet d’introduire des méthodes de décodage contrastif autonomes produisant des sorties de haute qualité. Des expériences étendues démontrent que cette recette est particulièrement efficace pour les modèles multimodaux. CM3Leon atteint des performances de pointe dans la génération image à partir de texte, avec 5 fois moins de ressources de calcul d’entraînement que les méthodes comparables (indice FID sur MS-COCO en zéro-shot de 4,88). Après la phase SFT, CM3Leon démontre également un niveau inédit de maîtrise dans des tâches allant de l’édition d’image guidée par le langage à la génération et la segmentation contrôlées par l’image.

Extension des modèles multi-modaux autoregressifs : pré-entraînement et ajustement par instruction | Articles de recherche récents | HyperAI