Command Palette
Search for a command to run...
R2-Tuning : Apprentissage par transfert efficace de l'image à la vidéo pour le positionnement temporel des vidéos
R2-Tuning : Apprentissage par transfert efficace de l'image à la vidéo pour le positionnement temporel des vidéos
Ye Liu¹,³* Jixuan He²,† Wanhua Li³ Junsik Kim³ Donglai Wei³ Hanspeter Pfister³ Chang Wen Chen¹,‡
Résumé
Le positionnement temporel vidéo (VTG) est un problème de compréhension vidéo fine qui vise à localiser des extraits pertinents dans des vidéos non tronquées en réponse à des requêtes en langage naturel. La plupart des modèles VTG existants sont basés sur les caractéristiques de la dernière couche de CLIP au niveau des images, aidés par des backbones temporales supplémentaires (par exemple, SlowFast) dotées de mécanismes de raisonnement temporel sophistiqués. Dans cette étude, nous soutenons que CLIP lui-même présente déjà un grand potentiel pour la modélisation spatiale et temporelle fine, chaque couche offrant des informations distinctes mais utiles à différents niveaux de granularité. Guidés par cette idée, nous proposons le réglage récurrent inversé (R2-Tuning), un cadre d'apprentissage par transfert efficace en termes de paramètres et de mémoire pour le positionnement temporel vidéo. Notre méthode apprend un bloc R2 léger ne contenant que 1,5 % du total des paramètres pour effectuer une modélisation spatiale et temporelle progressive. Partant de la dernière couche de CLIP, le bloc R2 agrège récurrentement les caractéristiques spatiales des couches précédentes, puis affine la corrélation temporelle conditionnellement à la requête donnée, aboutissant ainsi à une approche allant du grossier au fin. Le R2-Tuning atteint des performances d'état de l'art dans trois tâches VTG (à savoir, la recherche d'intervalles, la détection d'éléments saillants et le résumé vidéo) sur six benchmarks publics (à savoir, QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights et TVSum), même sans backbone supplémentaire, démontrant ainsi l'importance et l'efficacité du schéma proposé. Notre code est disponible sur https://github.com/yeliudev/R2-Tuning.