$R^2$-Tuning : Apprentissage par transfert efficace de l'image à la vidéo pour le positionnement temporel des vidéos

Le positionnement temporel vidéo (VTG) est un problème de compréhension vidéo fine qui vise à localiser des extraits pertinents dans des vidéos non tronquées en réponse à des requêtes en langage naturel. La plupart des modèles VTG existants sont basés sur les caractéristiques de la dernière couche de CLIP au niveau des images, aidés par des backbones temporales supplémentaires (par exemple, SlowFast) dotées de mécanismes de raisonnement temporel sophistiqués. Dans cette étude, nous soutenons que CLIP lui-même présente déjà un grand potentiel pour la modélisation spatiale et temporelle fine, chaque couche offrant des informations distinctes mais utiles à différents niveaux de granularité. Guidés par cette idée, nous proposons le réglage récurrent inversé ($R^2$-Tuning), un cadre d'apprentissage par transfert efficace en termes de paramètres et de mémoire pour le positionnement temporel vidéo. Notre méthode apprend un bloc $R^2$ léger ne contenant que 1,5 % du total des paramètres pour effectuer une modélisation spatiale et temporelle progressive. Partant de la dernière couche de CLIP, le bloc $R^2$ agrège récurrentement les caractéristiques spatiales des couches précédentes, puis affine la corrélation temporelle conditionnellement à la requête donnée, aboutissant ainsi à une approche allant du grossier au fin. Le $R^2$-Tuning atteint des performances d'état de l'art dans trois tâches VTG (à savoir, la recherche d'intervalles, la détection d'éléments saillants et le résumé vidéo) sur six benchmarks publics (à savoir, QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights et TVSum), même sans backbone supplémentaire, démontrant ainsi l'importance et l'efficacité du schéma proposé. Notre code est disponible sur https://github.com/yeliudev/R2-Tuning.