HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène

{Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong}

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène

Résumé

Un problème rencontré dans les récits générés automatiquement à partir de séquences d’images est qu’ils utilisent un vocabulaire trop générique et des structures de phrases peu variées, tout en échouant à reproduire les caractéristiques distributionnelles du texte produit par des humains. Pour résoudre ce problème, nous introduisons des représentations explicites des objets et de leurs relations en extrayant des graphes de scène à partir des images. L’utilisation d’un embedding de ces graphes de scène permet à notre modèle de raisonner de manière plus explicite sur les objets et leurs relations durant la génération de récits, en comparaison avec les caractéristiques globales issues d’un classificateur d’objets employées dans les travaux antérieurs. Nous mettons en œuvre des métriques prenant en compte la diversité des mots et des expressions dans les récits générés, ainsi que la référence aux caractéristiques visuelles narrativement significatives des images, et montrons que notre approche surpasse les systèmes antérieurs. Nos expériences indiquent également que nos modèles obtiennent des résultats compétitifs selon les métriques basées sur des références.

Benchmarks

BenchmarkMéthodologieMétriques
visual-storytelling-on-vistSGEmb
BLEU-1: 62.2
BLEU-2: 38.7
BLEU-3: 23.5
BLEU-4: 14.8
CIDEr: 8.6
METEOR: 35.6
ROUGE-L: 30.2

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène | Articles de recherche | HyperAI