HyperAIHyperAI
il y a 8 jours

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo

Kashu Yamazaki, Khoa Vo, Sang Truong, Bhiksha Raj, Ngan Le
VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo
Résumé

La captioning de paragraphes vidéo vise à générer une description composée de plusieurs phrases pour une vidéo non tronquée, incluant plusieurs localisations temporelles d’événements, dans un récit cohérent. Inspiré du processus de perception humaine, selon lequel une scène est efficacement comprise en la décomposant en composants visuels (par exemple, humains, animaux) et non visuels (par exemple, actions, relations), sous l’influence mutuelle de la vision et du langage, nous proposons tout d’abord un nouvel ensemble de caractéristiques visuelles et linguistiques (VL). Dans cette représentation VL, la scène est modélisée à travers trois modalités : (i) un environnement visuel global ; (ii) des agents visuels locaux principaux ; (iii) des éléments linguistiques de la scène. Nous introduisons ensuite un modèle autoregressif Transformer-in-Transformer (TinT), capable de capturer simultanément la cohérence sémantique des contenus intra-événements et inter-événements au sein d’une vidéo. Enfin, nous proposons une nouvelle fonction de perte contrastive VL afin de garantir que les caractéristiques d’embedding apprises soient alignées avec la sémantique des légendes. Des expériences approfondies et des études d’ablation étendues sur les jeux de données ActivityNet Captions et YouCookII démontrent que le modèle proposé, le Visual-Linguistic Transformer-in-Transformer (VLTinT), surpasser les méthodes d’état de l’art précédentes en termes de précision et de diversité. Le code source est rendu publiquement disponible à l’adresse suivante : https://github.com/UARK-AICV/VLTinT.

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo | Articles de recherche récents | HyperAI