HyperAIHyperAI

Command Palette

Search for a command to run...

Visualisation de l'histoire par augmentation de texte en ligne avec mémoire contextuelle

Daechul Ahn¹,§ Daneul Kim² Gwangmo Song³ Seung Hwan Kim³ Honglak Lee³,⁴ Dongyeop Kang⁵ Jonghyun Choi¹,†

Résumé

La visualisation narrative (SV) est une tâche complexe de génération d'images à partir de texte, en raison des difficultés non seulement à rendre les détails visuels à partir des descriptions textuelles, mais aussi à encoder un contexte à long terme sur plusieurs phrases. Bien que les travaux précédents se concentrent principalement sur la génération d'une image sémantiquement pertinente pour chaque phrase, l'encodage d'un contexte réparti tout au long du paragraphe donné afin de produire des images convaincantes sur le plan contextuel (par exemple, avec un personnage correct ou avec un arrière-plan approprié de la scène) reste un défi. À cet égard, nous proposons une nouvelle architecture mémoire pour le cadre de Transformers bidirectionnels, associée à une augmentation de texte en ligne qui génère plusieurs descriptions fictives comme supervision supplémentaire pendant l'entraînement, pour une meilleure généralisation aux variations linguistiques lors de l'inférence. Dans des expériences exhaustives menées sur deux benchmarks populaires de SV, à savoir Pororo-SV et Flintstones-SV, la méthode proposée dépasse significativement l'état de l'art selon diverses métriques, notamment le FID, le F1 des personnages, la précision des images, BLEU-2/3 et R-précision, avec une complexité computationnelle similaire ou moindre.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Visualisation de l'histoire par augmentation de texte en ligne avec mémoire contextuelle | Articles | HyperAI