HyperAIHyperAI
il y a 8 jours

Un cadre efficace de sélection de plans clés pour la génération de légendes vidéo

{Sivaji Bandyopadhyay, Thoudam Doren Singh, Salam Michael Singh, Loitongbam Sanayai Meetei, Alok Singh}
Un cadre efficace de sélection de plans clés pour la génération de légendes vidéo
Résumé

Décrire une vidéo constitue une tâche à la fois difficile et attrayante, car elle se situe à l’intersection entre la vision par ordinateur et la génération de langage naturel. Les modèles basés sur l’attention ont obtenu les meilleurs résultats à ce jour. Toutefois, tous ces modèles suivent des procédures similaires, telles que la segmentation de la vidéo en tronçons de cadres ou l’échantillonnage de cadres à intervalles réguliers pour l’encodage visuel. Ce processus de segmentation en tronçons ou d’échantillonnage à intervalles égaux entraîne une redondance dans l’encodage de l’information visuelle et impose un coût computationnel supplémentaire, car une vidéo est composée d’une séquence de cadres similaires et est soumise à des bruits inévitables tels que l’éclairage inégal, les occultations ou les effets de mouvement. Dans cet article, nous proposons une approche de sélection de cadres-clés basée sur les frontières, permettant au système de choisir un sous-ensemble compact de cadres-clés afin d’encoder efficacement l’information visuelle et de générer une description de la vidéo sans dégradation significative. L’approche proposée utilise seulement 3 à 4 cadres par vidéo et obtient des performances compétitives sur deux jeux de données de référence, MSVD et MSR-VTT, tant en anglais qu’en hindi.

Un cadre efficace de sélection de plans clés pour la génération de légendes vidéo | Articles de recherche récents | HyperAI