HyperAIHyperAI

Command Palette

Search for a command to run...

R2R^2R2-Tuning: Effizientes Bild-zu-Video-Transfer-Lernen für die zeitliche Lokalisierung in Videos

Ye Liu¹,³* Jixuan He²,† Wanhua Li³ Junsik Kim³ Donglai Wei³ Hanspeter Pfister³ Chang Wen Chen¹,‡

Zusammenfassung

Video-Temporal-Grounding (VTG) ist ein feingranulares Problem der Videoverarbeitung, das darauf abzielt, relevante Clips in ungeschnittenen Videos anhand natürlichsprachlicher Abfragen zu lokalisieren. Die meisten existierenden VTG-Modelle basieren auf rahmengeweisen Endschicht-CLIP-Features und werden durch zusätzliche zeitliche Backbones (z.B. SlowFast) mit fortgeschrittenen zeitlichen Inferenzmechanismen unterstützt. In dieser Arbeit behaupten wir, dass CLIP selbst bereits großes Potenzial für feingranulare räumlich-zeitliche Modellierung zeigt, da jede Schicht unter verschiedenen Granularitätsstufen unterschiedliche, aber nützliche Informationen bietet. Angeregt durch diese Erkenntnis schlagen wir Reversed Recurrent Tuning (R2R^2R2-Tuning) vor, einen parameter- und speichereffizienten Transfer-Learning-Framework für Video-Temporal-Grounding. Unsere Methode lernt einen leichten R2R^2R2-Block, der nur 1,5 % der Gesamtparameter umfasst, um fortschreitende räumlich-zeitliche Modellierung durchzuführen. Beginnend bei der letzten Schicht von CLIP aggregiert der R2R^2R2-Block rekurrent räumliche Features aus früheren Schichten und verfeinert dann die zeitliche Korrelation unter Berücksichtigung der gegebenen Abfrage, was zu einem Schema von grob zu fein führt. R2R^2R2-Tuning erreicht den Stand der Technik in drei VTG-Aufgaben (d.h., Moment-Retrieval, Highlight-Erkennung und Video-Zusammenfassung) auf sechs öffentlichen Benchmarks (d.h., QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights und TVSum), auch ohne den zusätzlichen Backbone, was die Bedeutung und Effektivität des vorgeschlagenen Schemas unterstreicht. Unser Code ist unter https://github.com/yeliudev/R2-Tuning verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
$R^2$-Tuning: Effizientes Bild-zu-Video-Transfer-Lernen für die zeitliche Lokalisierung in Videos | Paper | HyperAI