HyperAIHyperAI

Command Palette

Search for a command to run...

L-Verse : Génération Bidirectionnelle entre Image et Texte

Taehoon Kim; Gwangmo Song; Sihaeng Lee; Sangyun Kim; Yewon Seo; Soonyoung Lee; Seung Hwan Kim; Honglak Lee; Kyunghoon Bae

Résumé

Au-delà de l'apprentissage des interactions à longue portée du langage naturel, les transformateurs sont en train de devenir la norme de facto pour de nombreuses tâches visuelles grâce à leur puissance et leur évolutivité. En particulier, dans le cadre des tâches intermodales entre image et texte, les autoencodeurs variationnels vectoriels quantifiés (VQ-VAEs) sont largement utilisés pour transformer une image brute en RGB en une séquence de vecteurs de caractéristiques. Pour exploiter au mieux la corrélation entre image et texte, nous proposons L-Verse, une nouvelle architecture composée d'un autoencodeur variationnel augmenté de caractéristiques (AugVAE) et d'un transformateur autorégressif bidirectionnel (BiART) pour la génération d'images à partir de texte et vice versa. Notre AugVAE affiche des performances de reconstruction d'avant-garde sur l'ensemble de validation ImageNet1K, tout en montrant une robustesse face aux images inconnues dans le monde réel. Contrairement à d'autres modèles, le BiART peut distinguer entre une image (ou un texte) comme référence conditionnelle et une cible de génération. L-Verse peut être utilisé directement pour la génération d'images à partir de texte ou inversement sans aucun ajustement fin ni cadre supplémentaire de détection d'objets. Dans des expériences quantitatives et qualitatives, L-Verse montre des résultats impressionnants par rapport aux méthodes précédentes tant pour la génération d'images à partir de texte que pour la génération inverse sur MS-COCO Captions. Nous évaluons également l'évolutivité de l'architecture L-Verse sur Conceptual Captions et présentons les premiers résultats d'apprentissage bidirectionnel des représentations vision-langage dans un domaine général.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
L-Verse : Génération Bidirectionnelle entre Image et Texte | Articles | HyperAI