HyperAIHyperAI

Command Palette

Search for a command to run...

Utilisation de la contextualisation temporelle pour la reconnaissance d'actions vidéo

Minji Kim extsuperscript1 extsuperscript† Dongyoon Han extsuperscript3 Taekyung Kim extsuperscript3 extsuperscript* Bohyung Han extsuperscript1,2 extsuperscript*

Résumé

Nous proposons un nouveau cadre pour la compréhension vidéo, appelé Temporally Contextualized CLIP (TC-CLIP), qui exploite des informations temporelles essentielles grâce aux interactions globales dans le domaine spatio-temporel d'une vidéo. Plus précisément, nous introduisons la Temporal Contextualization (TC), un mécanisme de diffusion d'informations temporelles par couche pour les vidéos, qui 1) extrait l'information centrale de chaque image, 2) relie les informations pertinentes entre les images pour résumer en jetons contextuels, et 3) utilise ces jetons contextuels pour l'encodage des caractéristiques. De plus, le module de Video-conditional Prompting (VP) traite les jetons contextuels afin de générer des prompts informatifs dans la modalité textuelle. Des expériences approfondies en reconnaissance d'actions à zéro exemple, à quelques exemples, de base à nouvelle, et entièrement supervisée valident l'efficacité de notre modèle. Les études d'ablation concernant TC et VP soutiennent nos choix de conception. Notre page de projet avec le code source est disponible à l'adresse https://github.com/naver-ai/tc-clip.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp