HyperAIHyperAI

Command Palette

Search for a command to run...

TS2-Net : Transformer à décalage et sélection de tokens pour la recherche texte-vidéo

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

Résumé

La recherche text-video est une tâche d'une grande valeur pratique et suscite un intérêt croissant, parmi laquelle l'apprentissage de représentations spatio-temporelles vidéo constitue l'un des axes de recherche les plus actifs. Les encodeurs vidéo des modèles d'extraction vidéo les plus récents adoptent généralement directement des modèles pré-entraînés à base de vision, avec une structure réseau fixe, ce qui empêche toute amélioration ultérieure pour produire des représentations vidéo spatio-temporelles à haute granularité. Dans cet article, nous proposons TS2-Net, un nouvel architecture transformer basée sur le décalage et la sélection de tokens, qui ajuste dynamiquement la séquence de tokens et sélectionne les tokens les plus informatifs dans les dimensions temporelle et spatiale à partir d'échantillons vidéo d'entrée. Le module de décalage de tokens décale de manière temporelle les caractéristiques de tous les tokens de façon réciproque entre cadres adjacents, afin de préserver la représentation complète des tokens et de capturer des mouvements subtils. Ensuite, le module de sélection de tokens identifie les tokens ayant la contribution la plus significative aux sémantiques spatiales locales. Sur la base d'expériences approfondies, le modèle TS2-Net atteint des performances de pointe sur les principales bases de données de recherche text-video, établissant de nouveaux records sur MSRVTT, VATEX, LSMDC, ActivityNet et DiDeMo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TS2-Net : Transformer à décalage et sélection de tokens pour la recherche texte-vidéo | Articles | HyperAI