HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 4 mois

Récit à partir d’un flux d’images en utilisant des graphes de scènes

{Xuanjing Huang Qi Zhang Piji Li Zhongyu Wei Ruize Wang}

Résumé

Le récit visuel vise à générer une histoire à partir d’un flux d’images. La plupart des méthodes existantes consistent à représenter directement les images à l’aide de caractéristiques hautement abstraites extraites, ce qui rend la représentation peu intuitive et difficile à interpréter. Nous soutenons qu’une traduction de chaque image en une représentation sémantique basée sur un graphe, à savoir un graphe de scène, qui encode explicitement les objets et les relations détectés dans l’image, améliorerait significativement la représentation et la description des images. À cette fin, nous proposons une nouvelle architecture basée sur les graphes pour le récit visuel, en modélisant les relations à deux niveaux au sein des graphes de scène. Plus précisément, au niveau intra-image, nous utilisons un Réseau de Convolution de Graphe (GCN) afin d’enrichir les représentations locales fines des régions objet dans les graphes de scène. Pour modéliser davantage les interactions entre les images, au niveau inter-images, un Réseau de Convolution Temporel (TCN) est employé pour affiner les représentations des régions le long de la dimension temporelle. Ensuite, les représentations sensibles aux relations sont introduites dans une Unité Récurrente à Porte (GRU) munie d’un mécanisme d’attention afin de générer l’histoire. Des expériences ont été menées sur un jeu de données public dédié au récit visuel. Les résultats d’évaluation automatique et humaine indiquent que notre méthode atteint un niveau d’état de l’art.

Benchmarks

BenchmarkMéthodologieMétriques
visual-storytelling-on-vistSGVST
BLEU-4: 14.7
CIDEr: 9.8
METEOR: 35.8
ROUGE-L: 29.9

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récit à partir d’un flux d’images en utilisant des graphes de scènes | Articles de recherche | HyperAI