il y a 11 jours

BERT-hLSTMs : BERT et LSTMs hiérarchiques pour la narration visuelle

Jing Su, Qingyun Dai, Frank Guerin, Mian Zhou

Résumé

L’art du récit visuel est une tâche créative et exigeante, visant à générer automatiquement une description narrative à partir d’une séquence d’images. Les descriptions produites par les approches précédentes manquent de cohérence, car elles reposent sur des méthodes de génération de séquences au niveau des mots et ne prennent pas suffisamment en compte les dépendances au niveau des phrases. Pour résoudre ce problème, nous proposons un cadre novateur de récit visuel hiérarchique, qui modélise séparément les sémantiques au niveau des phrases et au niveau des mots. Nous utilisons BERT, basé sur le mécanisme d’attention transformer, pour obtenir des représentations vectorielles (embeddings) des phrases et des mots. Ensuite, nous mettons en œuvre un réseau LSTM hiérarchique : le LSTM inférieur reçoit en entrée les représentations vectorielles des phrases issues de BERT afin d’apprendre les dépendances entre les phrases correspondant aux images, tandis que le LSTM supérieur est chargé de générer les représentations vectorielles des mots, en s’appuyant sur les sorties du LSTM inférieur. Les résultats expérimentaux montrent que notre modèle surpasse la plupart des méthodes de référence les plus proches selon les métriques d’évaluation automatique BLEU et CIDEr, et confirment également l’efficacité de notre approche par évaluation humaine.