Command Palette
Search for a command to run...
R2-Tuning: Effizientes Bild-zu-Video-Transfer-Lernen für die zeitliche Lokalisierung in Videos
R2-Tuning: Effizientes Bild-zu-Video-Transfer-Lernen für die zeitliche Lokalisierung in Videos
Ye Liu¹,³* Jixuan He²,† Wanhua Li³ Junsik Kim³ Donglai Wei³ Hanspeter Pfister³ Chang Wen Chen¹,‡
Zusammenfassung
Video-Temporal-Grounding (VTG) ist ein feingranulares Problem der Videoverarbeitung, das darauf abzielt, relevante Clips in ungeschnittenen Videos anhand natürlichsprachlicher Abfragen zu lokalisieren. Die meisten existierenden VTG-Modelle basieren auf rahmengeweisen Endschicht-CLIP-Features und werden durch zusätzliche zeitliche Backbones (z.B. SlowFast) mit fortgeschrittenen zeitlichen Inferenzmechanismen unterstützt. In dieser Arbeit behaupten wir, dass CLIP selbst bereits großes Potenzial für feingranulare räumlich-zeitliche Modellierung zeigt, da jede Schicht unter verschiedenen Granularitätsstufen unterschiedliche, aber nützliche Informationen bietet. Angeregt durch diese Erkenntnis schlagen wir Reversed Recurrent Tuning (R2-Tuning) vor, einen parameter- und speichereffizienten Transfer-Learning-Framework für Video-Temporal-Grounding. Unsere Methode lernt einen leichten R2-Block, der nur 1,5 % der Gesamtparameter umfasst, um fortschreitende räumlich-zeitliche Modellierung durchzuführen. Beginnend bei der letzten Schicht von CLIP aggregiert der R2-Block rekurrent räumliche Features aus früheren Schichten und verfeinert dann die zeitliche Korrelation unter Berücksichtigung der gegebenen Abfrage, was zu einem Schema von grob zu fein führt. R2-Tuning erreicht den Stand der Technik in drei VTG-Aufgaben (d.h., Moment-Retrieval, Highlight-Erkennung und Video-Zusammenfassung) auf sechs öffentlichen Benchmarks (d.h., QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights und TVSum), auch ohne den zusätzlichen Backbone, was die Bedeutung und Effektivität des vorgeschlagenen Schemas unterstreicht. Unser Code ist unter https://github.com/yeliudev/R2-Tuning verfügbar.