Recurrent Topic-Transition GAN pour la Génération de Paragraphes Visuels

Une image naturelle transmet généralement un contenu sémantique riche et peut être observée sous différents angles. Les méthodes actuelles de description d'images sont largement limitées par des ensembles restreints d'annotations visuelles biaisées, et ne parviennent pas à couvrir la sémantique sous-jacente riche. Dans cet article, nous explorons un cadre génératif de paragraphes semi-supervisé capable de synthétiser des descriptions de paragraphes diverses et sémantiquement cohérentes en raisonnant sur les régions sémantiques locales et en exploitant les connaissances linguistiques. Le Réseau Adversarial Génératif à Transitions de Sujets Récursives (RTT-GAN) proposé établit un cadre adversarial entre un générateur structuré de paragraphes et des discriminants de paragraphes multiniveaux. Le générateur de paragraphes produit des phrases récurrentement en intégrant des mécanismes d'attention visuelle et linguistique basés sur les régions à chaque étape. La qualité des phrases générées est évaluée par des discriminants adversariaux multiniveaux selon deux aspects : la plausibilité au niveau phrase et la cohérence des transitions de sujets au niveau paragraphe. L'entraînement adversarial conjoint du RTT-GAN pousse le modèle à générer des paragraphes réalistes avec une transition logique fluide entre les sujets des phrases. De nombreuses expériences quantitatives sur des jeux de données de paragraphes d'images et de vidéos démontrent l'efficacité de notre RTT-GAN dans les configurations supervisées et semi-supervisées. Les résultats qualitatifs concernant la narration d'histoires variées pour une image confirment également l'interprétabilité du RTT-GAN.