$R^2$-Tuning: Effizientes Bild-zu-Video-Transfer-Lernen für die zeitliche Lokalisierung in Videos

Video-Temporal-Grounding (VTG) ist ein feingranulares Problem der Videoverarbeitung, das darauf abzielt, relevante Clips in ungeschnittenen Videos anhand natürlichsprachlicher Abfragen zu lokalisieren. Die meisten existierenden VTG-Modelle basieren auf rahmengeweisen Endschicht-CLIP-Features und werden durch zusätzliche zeitliche Backbones (z.B. SlowFast) mit fortgeschrittenen zeitlichen Inferenzmechanismen unterstützt. In dieser Arbeit behaupten wir, dass CLIP selbst bereits großes Potenzial für feingranulare räumlich-zeitliche Modellierung zeigt, da jede Schicht unter verschiedenen Granularitätsstufen unterschiedliche, aber nützliche Informationen bietet. Angeregt durch diese Erkenntnis schlagen wir Reversed Recurrent Tuning ($R^2$-Tuning) vor, einen parameter- und speichereffizienten Transfer-Learning-Framework für Video-Temporal-Grounding. Unsere Methode lernt einen leichten $R^2$-Block, der nur 1,5 % der Gesamtparameter umfasst, um fortschreitende räumlich-zeitliche Modellierung durchzuführen. Beginnend bei der letzten Schicht von CLIP aggregiert der $R^2$-Block rekurrent räumliche Features aus früheren Schichten und verfeinert dann die zeitliche Korrelation unter Berücksichtigung der gegebenen Abfrage, was zu einem Schema von grob zu fein führt. $R^2$-Tuning erreicht den Stand der Technik in drei VTG-Aufgaben (d.h., Moment-Retrieval, Highlight-Erkennung und Video-Zusammenfassung) auf sechs öffentlichen Benchmarks (d.h., QVHighlights, Charades-STA, Ego4D-NLQ, TACoS, YouTube Highlights und TVSum), auch ohne den zusätzlichen Backbone, was die Bedeutung und Effektivität des vorgeschlagenen Schemas unterstreicht. Unser Code ist unter https://github.com/yeliudev/R2-Tuning verfügbar.