il y a 7 jours

Captioning vidéo diversifié par une attention spatio-temporelle adaptative

Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch

Résumé

Pour générer des légendes appropriées pour des vidéos, l’inférence doit identifier les concepts pertinents, tenir compte des relations spatiales entre eux ainsi que de l’évolution temporelle au sein de la séquence vidéo. Notre cadre de génération de légendes vidéo end-to-end, basé sur une architecture encodeur-décodage, intègre deux architectures fondées sur les transformateurs : un transformateur adapté pour une analyse spatio-temporelle conjointe de la vidéo, ainsi qu’un décodeur reposant sur l’attention auto-attentionnelle pour une génération avancée du texte. En outre, nous proposons un schéma d’adaptation de sélection de trames afin de réduire le nombre de trames d’entrée nécessaires tout en préservant le contenu pertinent lors de l’entraînement des deux transformateurs. Par ailleurs, nous estimons les concepts sémantiques pertinents pour la génération de légendes en agrégant toutes les légendes de référence (ground truth) associées à chaque échantillon. Notre approche atteint des résultats de pointe sur les jeux de données MSVD, ainsi que sur les grandes bases MSR-VTT et VATEX, selon plusieurs métriques de génération de langage naturel (NLG). Des évaluations complémentaires sur les scores de diversité mettent en évidence l’expressivité et la variété structurelle des légendes générées.