HyperAIHyperAI
vor 4 Monaten

ZeroI2V: Kostengünstige Anpassung von vortrainierten Transformatoren von Bildern zu Videos

Xinhao Li; Yuhan Zhu; Limin Wang
ZeroI2V: Kostengünstige Anpassung von vortrainierten Transformatoren von Bildern zu Videos
Abstract

Das Anpassen von Bildmodellen auf den Videobereich ist als effizientes Paradigma zur Lösung von Videoerkennungsaufgaben hervorgetreten. Aufgrund der großen Anzahl von Parametern und der wirksamen Übertragbarkeit von Bildmodellen ist eine vollständige Feinabstimmung (Fine-Tuning) weniger effizient und sogar unnötig. Daher verschiebt sich der Fokus aktueller Forschungen zunehmend auf parameter-effiziente Anpassungen von Bild- zu Videomodellen. Allerdings führen diese Anpassungsstrategien unvermeidlich zusätzliche Rechenkosten mit sich, um die Domänenlücke und die zeitliche Modellierung in Videos zu bewältigen. In dieser Arbeit stellen wir ein neues Anpassungsparadigma (ZeroI2V) vor, das es ermöglicht, Bildtransformer auf Videoerkennungsaufgaben zu übertragen (d.h., es werden keine zusätzlichen Kosten für die ursprünglichen Modelle während der Inferenz eingeführt). Um dieses Ziel zu erreichen, präsentieren wir zwei Kernkonzepte. Erstens, um die Dynamik in Videos zu erfassen und die Schwierigkeit der Anpassung von Bild- zu Videomodellen zu verringern, nutzen wir die Flexibilität des Selbst-Attention-Mechanismus und führen räumlich-zeitliche Doppelaufmerksamkeit (STDHA) ein. Dieser Ansatz verleiht den Bildtransformern effizient zeitliche Modellierungsfähigkeiten ohne zusätzliche Parameter oder Rechenkosten. Zweitens, um die Domänenlücke zwischen Bildern und Videos zu bewältigen, schlagen wir eine lineare Anpassungsstrategie vor, die leichte, dicht platzierte lineare Adapter verwendet, um die gefrorenen Bildmodelle vollständig auf Videoerkennung umzustellen. Dank der angepassten linearen Designkonzeption können alle neu hinzugefügten Adapter nach dem Training durch strukturelle Reparameterisierung leicht mit den ursprünglichen Modulen zusammengeführt werden, was während der Inferenz keine zusätzlichen Kosten verursacht. Ausführliche Experimente an repräsentativen Benchmarks für voll überwachte und few-shot Videoerkennung zeigen, dass ZeroI2V frühere Stand-of-the-Art-Methoden gleichkommen oder sogar übertreffen kann, während es gleichzeitig eine überlegene Parameter- und Inferenzeffizienz bietet.