HyperAIHyperAI
il y a 8 jours

Système NITS-VC pour le défi de captioning vidéo VATEX 2020

Alok Singh, Thoudam Doren Singh, Sivaji Bandyopadhyay
Système NITS-VC pour le défi de captioning vidéo VATEX 2020
Résumé

La mise en légende vidéo consiste à résumer le contenu, les événements et les actions présents dans une vidéo sous forme textuelle concise, ce qui s’avère utile dans de nombreux domaines de recherche tels que la traduction automatique guidée par la vidéo, l’analyse de sentiment vidéo ou encore l’assistance aux personnes en situation de besoin. Dans cet article, nous présentons la description du système mis en œuvre dans le cadre du défi de mise en légende vidéo VATEX-2020. Notre approche repose sur une architecture encodeur-décodeur, dans laquelle les caractéristiques visuelles de la vidéo sont encodées à l’aide d’un réseau neuronal à convolution 3D (C3D). Pendant la phase de décodage, deux réseaux récurrents à mémoire à court et long terme (LSTM) sont utilisés de manière séparée pour fusionner les caractéristiques visuelles et les légendes d’entrée, avant de générer la sortie finale par produit élément par élément des sorties des deux LSTM. Notre modèle atteint des scores BLEU de 0,20 et 0,22 sur les ensembles de données de test publics et privés respectivement.