il y a 17 jours

TS2-Net : Transformer à décalage et sélection de tokens pour la recherche texte-vidéo

Yuqi Liu, Pengfei Xiong, Luhui Xu, Shengming Cao, Qin Jin

Résumé

La recherche text-video est une tâche d'une grande valeur pratique et suscite un intérêt croissant, parmi laquelle l'apprentissage de représentations spatio-temporelles vidéo constitue l'un des axes de recherche les plus actifs. Les encodeurs vidéo des modèles d'extraction vidéo les plus récents adoptent généralement directement des modèles pré-entraînés à base de vision, avec une structure réseau fixe, ce qui empêche toute amélioration ultérieure pour produire des représentations vidéo spatio-temporelles à haute granularité. Dans cet article, nous proposons TS2-Net, un nouvel architecture transformer basée sur le décalage et la sélection de tokens, qui ajuste dynamiquement la séquence de tokens et sélectionne les tokens les plus informatifs dans les dimensions temporelle et spatiale à partir d'échantillons vidéo d'entrée. Le module de décalage de tokens décale de manière temporelle les caractéristiques de tous les tokens de façon réciproque entre cadres adjacents, afin de préserver la représentation complète des tokens et de capturer des mouvements subtils. Ensuite, le module de sélection de tokens identifie les tokens ayant la contribution la plus significative aux sémantiques spatiales locales. Sur la base d'expériences approfondies, le modèle TS2-Net atteint des performances de pointe sur les principales bases de données de recherche text-video, établissant de nouveaux records sur MSRVTT, VATEX, LSMDC, ActivityNet et DiDeMo.