il y a 6 mois

Résumé

La captioning de paragraphes vidéo vise à générer une description composée de plusieurs phrases pour une vidéo non tronquée, incluant plusieurs localisations temporelles d’événements, dans un récit cohérent. Inspiré du processus de perception humaine, selon lequel une scène est efficacement comprise en la décomposant en composants visuels (par exemple, humains, animaux) et non visuels (par exemple, actions, relations), sous l’influence mutuelle de la vision et du langage, nous proposons tout d’abord un nouvel ensemble de caractéristiques visuelles et linguistiques (VL). Dans cette représentation VL, la scène est modélisée à travers trois modalités : (i) un environnement visuel global ; (ii) des agents visuels locaux principaux ; (iii) des éléments linguistiques de la scène. Nous introduisons ensuite un modèle autoregressif Transformer-in-Transformer (TinT), capable de capturer simultanément la cohérence sémantique des contenus intra-événements et inter-événements au sein d’une vidéo. Enfin, nous proposons une nouvelle fonction de perte contrastive VL afin de garantir que les caractéristiques d’embedding apprises soient alignées avec la sémantique des légendes. Des expériences approfondies et des études d’ablation étendues sur les jeux de données ActivityNet Captions et YouCookII démontrent que le modèle proposé, le Visual-Linguistic Transformer-in-Transformer (VLTinT), surpasser les méthodes d’état de l’art précédentes en termes de précision et de diversité. Le code source est rendu publiquement disponible à l’adresse suivante : https://github.com/UARK-AICV/VLTinT.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Video Captioning

Représentation Multimodale

Multimodal

Tâche

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Video Captioning

Représentation Multimodale

Multimodal

Tâche

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo | Articles | HyperAI

Command Palette

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VLTinT : Transformateur visuel-linguistique en transformateur pour la rédaction cohérente de paragraphes de légendes vidéo

Kashu Yamazaki Khoa Vo Sang Truong Bhiksha Raj Ngan Le

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters