HyperAIHyperAI
il y a 2 mois

LAFITE : Vers une formation sans langage pour la génération d'images à partir de texte

Yufan Zhou; Ruiyi Zhang; Changyou Chen; Chunyuan Li; Chris Tensmeyer; Tong Yu; Jiuxiang Gu; Jinhui Xu; Tong Sun
LAFITE : Vers une formation sans langage pour la génération d'images à partir de texte
Résumé

L'un des principaux défis dans l'entraînement de modèles de génération d'images à partir de texte est la nécessité d'un grand nombre de paires image-texte de haute qualité. Bien que les échantillons d'images soient souvent facilement accessibles, les descriptions textuelles associées nécessitent généralement une légende humaine soigneuse, ce qui est particulièrement coûteux en temps et en ressources. Dans cet article, nous proposons le premier travail visant à entraîner des modèles de génération d'images à partir de texte sans aucune donnée textuelle. Notre méthode exploite l'espace sémantique multi-modale bien aligné du puissant modèle pré-entraîné CLIP : l'exigence de conditionnement textuel est atténuée de manière fluide grâce à la génération de caractéristiques textuelles à partir de caractéristiques d'images. De nombreuses expériences sont menées pour illustrer l'efficacité de la méthode proposée. Nous obtenons des résultats à l'état de l'art dans les tâches standard de génération d'images à partir de texte. Importamment, le modèle proposé sans langage surpasse la plupart des modèles existants entraînés avec des paires image-texte complètes. De plus, notre méthode peut être appliquée pour affiner les modèles pré-entraînés, ce qui réduit considérablement le temps et le coût d'entraînement des modèles de génération d'images à partir de texte. Notre modèle pré-entraîné obtient des résultats compétitifs en génération d'images à partir de texte par transfert zéro-shot sur le jeu de données MS-COCO, tout en n'utilisant que environ 1 % de la taille du modèle et des données d'entraînement par rapport au récemment proposé grand modèle DALL-E.