HyperAIHyperAI
il y a 2 mois

Vous Vous Souvenez ? La Légendisation Vidéo Dense avec le Rappel de Mémoire Multimodal

Kim, Minkuk ; Kim, Hyeon Bae ; Moon, Jinyoung ; Choi, Jinwoo ; Kim, Seong Tae
Vous Vous Souvenez ? La Légendisation Vidéo Dense avec le Rappel de Mémoire Multimodal
Résumé

Les recherches sur la légendisation dense de vidéos ont suscité une attention considérable. L'objectif est de localiser et légendier automatiquement tous les événements dans des vidéos non tronquées. Plusieurs études ont introduit des méthodes en concevant la légendisation dense de vidéos comme un problème multitâche de localisation d'événements et de légendiation d'événements, afin de prendre en compte les relations inter-tâches. Cependant, aborder ces deux tâches uniquement à partir d'une entrée visuelle est difficile en raison du manque de contenu sémantique. Dans cette étude, nous proposons une nouvelle approche inspirée par le traitement cognitif de l'information chez l'homme pour résoudre ce problème. Notre modèle utilise une mémoire externe pour intégrer des connaissances antérieures. Nous proposons une méthode de récupération de mémoire basée sur l'appariement vidéo-texte multimodal. Pour incorporer efficacement les caractéristiques textuelles récupérées, nous avons conçu un encodeur polyvalent et un décodeur dotés de modules d'attention croisée visuelle et textuelle. Des expériences comparatives ont été menées pour démontrer l'efficacité de notre méthode sur les jeux de données ActivityNet Captions et YouCook2. Les résultats expérimentaux montrent des performances prometteuses de notre modèle sans préformation extensive à partir d'un grand ensemble de données vidéo.

Vous Vous Souvenez ? La Légendisation Vidéo Dense avec le Rappel de Mémoire Multimodal | Articles de recherche récents | HyperAI