HyperAIHyperAI

Command Palette

Search for a command to run...

BERT-hLSTMs : BERT et LSTMs hiérarchiques pour la narration visuelle

Jing Su Qingyun Dai Frank Guerin Mian Zhou

Résumé

L’art du récit visuel est une tâche créative et exigeante, visant à générer automatiquement une description narrative à partir d’une séquence d’images. Les descriptions produites par les approches précédentes manquent de cohérence, car elles reposent sur des méthodes de génération de séquences au niveau des mots et ne prennent pas suffisamment en compte les dépendances au niveau des phrases. Pour résoudre ce problème, nous proposons un cadre novateur de récit visuel hiérarchique, qui modélise séparément les sémantiques au niveau des phrases et au niveau des mots. Nous utilisons BERT, basé sur le mécanisme d’attention transformer, pour obtenir des représentations vectorielles (embeddings) des phrases et des mots. Ensuite, nous mettons en œuvre un réseau LSTM hiérarchique : le LSTM inférieur reçoit en entrée les représentations vectorielles des phrases issues de BERT afin d’apprendre les dépendances entre les phrases correspondant aux images, tandis que le LSTM supérieur est chargé de générer les représentations vectorielles des mots, en s’appuyant sur les sorties du LSTM inférieur. Les résultats expérimentaux montrent que notre modèle surpasse la plupart des méthodes de référence les plus proches selon les métriques d’évaluation automatique BLEU et CIDEr, et confirment également l’efficacité de notre approche par évaluation humaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BERT-hLSTMs : BERT et LSTMs hiérarchiques pour la narration visuelle | Articles | HyperAI