HyperAIHyperAI

Command Palette

Search for a command to run...

R2R^2R2-Tuning : Apprentissage par transfert efficace de l'image à la vidéo pour le positionnement temporel des vidéos

Ye Liu¹,³* Jixuan He²,† Wanhua Li³ Junsik Kim³ Donglai Wei³ Hanspeter Pfister³ Chang Wen Chen¹,‡

Résumé

Le positionnement temporel vidéo (VTG) est un problème de compréhension vidéo fine qui vise à localiser des extraits pertinents dans des vidéos non tronquées en réponse à des requêtes en langage naturel. La plupart des modèles VTG existants sont basés sur les caractéristiques de la dernière couche de CLIP au niveau des images, aidés par des backbones temporales supplémentaires (par exemple, SlowFast) dotées de mécanismes de raisonnement temporel sophistiqués. Dans cette étude, nous soutenons que CLIP lui-même présente déjà un grand potentiel pour la modélisation spatiale et temporelle fine, chaque couche offrant des informations distinctes mais utiles à différents niveaux de granularité. Guidés par cette idée, nous proposons le réglage récurrent inversé (R2R^2R2-Tuning), un cadre d'apprentissage par transfert efficace en termes de paramètres et de mémoire pour le positionnement temporel vidéo. Notre méthode apprend un bloc R2R^2R2 léger ne contenant que 1,5 % du total des paramètres pour effectuer une modélisation spatiale et temporelle progressive. Partant de la dernière couche de CLIP, le bloc R2R^2R2 agrège récurrentement les caractéristiques spatiales des couches précédentes, puis affine la corrélation temporelle conditionnellement à la requête donnée, aboutissant ainsi à une approche allant du grossier au fin. Le R2R^2R2-Tuning atteint des performances d'état de l'art dans trois tâches VTG (à savoir, la recherche d'intervalles, la détection d'éléments saillants et le résumé vidéo) sur six benchmarks publics (à savoir, QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights et TVSum), même sans backbone supplémentaire, démontrant ainsi l'importance et l'efficacité du schéma proposé. Notre code est disponible sur https://github.com/yeliudev/R2-Tuning.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp