HyperAIHyperAI

Command Palette

Search for a command to run...

Recurrent Topic-Transition GAN pour la Génération de Paragraphes Visuels

Xiaodan Liang Zhiting Hu Hao Zhang Chuang Gan Eric P. Xing

Résumé

Une image naturelle transmet généralement un contenu sémantique riche et peut être observée sous différents angles. Les méthodes actuelles de description d'images sont largement limitées par des ensembles restreints d'annotations visuelles biaisées, et ne parviennent pas à couvrir la sémantique sous-jacente riche. Dans cet article, nous explorons un cadre génératif de paragraphes semi-supervisé capable de synthétiser des descriptions de paragraphes diverses et sémantiquement cohérentes en raisonnant sur les régions sémantiques locales et en exploitant les connaissances linguistiques. Le Réseau Adversarial Génératif à Transitions de Sujets Récursives (RTT-GAN) proposé établit un cadre adversarial entre un générateur structuré de paragraphes et des discriminants de paragraphes multiniveaux. Le générateur de paragraphes produit des phrases récurrentement en intégrant des mécanismes d'attention visuelle et linguistique basés sur les régions à chaque étape. La qualité des phrases générées est évaluée par des discriminants adversariaux multiniveaux selon deux aspects : la plausibilité au niveau phrase et la cohérence des transitions de sujets au niveau paragraphe. L'entraînement adversarial conjoint du RTT-GAN pousse le modèle à générer des paragraphes réalistes avec une transition logique fluide entre les sujets des phrases. De nombreuses expériences quantitatives sur des jeux de données de paragraphes d'images et de vidéos démontrent l'efficacité de notre RTT-GAN dans les configurations supervisées et semi-supervisées. Les résultats qualitatifs concernant la narration d'histoires variées pour une image confirment également l'interprétabilité du RTT-GAN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Recurrent Topic-Transition GAN pour la Génération de Paragraphes Visuels | Articles | HyperAI