Utilisation de la contextualisation temporelle pour la reconnaissance d'actions vidéo

Nous proposons un nouveau cadre pour la compréhension vidéo, appelé Temporally Contextualized CLIP (TC-CLIP), qui exploite des informations temporelles essentielles grâce aux interactions globales dans le domaine spatio-temporel d'une vidéo. Plus précisément, nous introduisons la Temporal Contextualization (TC), un mécanisme de diffusion d'informations temporelles par couche pour les vidéos, qui 1) extrait l'information centrale de chaque image, 2) relie les informations pertinentes entre les images pour résumer en jetons contextuels, et 3) utilise ces jetons contextuels pour l'encodage des caractéristiques. De plus, le module de Video-conditional Prompting (VP) traite les jetons contextuels afin de générer des prompts informatifs dans la modalité textuelle. Des expériences approfondies en reconnaissance d'actions à zéro exemple, à quelques exemples, de base à nouvelle, et entièrement supervisée valident l'efficacité de notre modèle. Les études d'ablation concernant TC et VP soutiennent nos choix de conception. Notre page de projet avec le code source est disponible à l'adresse https://github.com/naver-ai/tc-clip.