Zero Shot Dense Video Captioning
Le zéro-shot dense video captioning est une technique de vision par ordinateur visant à générer automatiquement des descriptions détaillées pour chaque segment d'une vidéo sans formation préalable. Cette technologie comprend le contenu de la vidéo, capture les scènes dynamiques et les comportements des objets, et parvient à décrire avec précision des données vidéo inédites. Elle est largement utilisée dans l'analyse de contenu vidéo, la surveillance intelligente, et pour aider les personnes malvoyantes à comprendre les vidéos.