HyperAIHyperAI

Command Palette

Search for a command to run...

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Résumé

La captioning de paragraphes vidéo vise à générer une description composée de plusieurs phrases pour une vidéo non tronquée, incluant plusieurs localisations temporelles d’événements, dans un récit cohérent. Inspiré du processus de perception humaine, selon lequel une scène est efficacement comprise en la décomposant en composants visuels (par exemple, humains, animaux) et non visuels (par exemple, actions, relations), sous l’influence mutuelle de la vision et du langage, nous proposons tout d’abord un nouvel ensemble de caractéristiques visuelles et linguistiques (VL). Dans cette représentation VL, la scène est modélisée à travers trois modalités : (i) un environnement visuel global ; (ii) des agents visuels locaux principaux ; (iii) des éléments linguistiques de la scène. Nous introduisons ensuite un modèle autoregressif Transformer-in-Transformer (TinT), capable de capturer simultanément la cohérence sémantique des contenus intra-événements et inter-événements au sein d’une vidéo. Enfin, nous proposons une nouvelle fonction de perte contrastive VL afin de garantir que les caractéristiques d’embedding apprises soient alignées avec la sémantique des légendes. Des expériences approfondies et des études d’ablation étendues sur les jeux de données ActivityNet Captions et YouCookII démontrent que le modèle proposé, le Visual-Linguistic Transformer-in-Transformer (VLTinT), surpasser les méthodes d’état de l’art précédentes en termes de précision et de diversité. Le code source est rendu publiquement disponible à l’adresse suivante : https://github.com/UARK-AICV/VLTinT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp