HyperAIHyperAI

Command Palette

Search for a command to run...

Captioning vidéo diversifié par une attention spatio-temporelle adaptative

Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch

Résumé

Pour générer des légendes appropriées pour des vidéos, l’inférence doit identifier les concepts pertinents, tenir compte des relations spatiales entre eux ainsi que de l’évolution temporelle au sein de la séquence vidéo. Notre cadre de génération de légendes vidéo end-to-end, basé sur une architecture encodeur-décodage, intègre deux architectures fondées sur les transformateurs : un transformateur adapté pour une analyse spatio-temporelle conjointe de la vidéo, ainsi qu’un décodeur reposant sur l’attention auto-attentionnelle pour une génération avancée du texte. En outre, nous proposons un schéma d’adaptation de sélection de trames afin de réduire le nombre de trames d’entrée nécessaires tout en préservant le contenu pertinent lors de l’entraînement des deux transformateurs. Par ailleurs, nous estimons les concepts sémantiques pertinents pour la génération de légendes en agrégant toutes les légendes de référence (ground truth) associées à chaque échantillon. Notre approche atteint des résultats de pointe sur les jeux de données MSVD, ainsi que sur les grandes bases MSR-VTT et VATEX, selon plusieurs métriques de génération de langage naturel (NLG). Des évaluations complémentaires sur les scores de diversité mettent en évidence l’expressivité et la variété structurelle des légendes générées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp