HyperAIHyperAI
vor 4 Monaten

TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen

Wang, Bin ; Wang, Wenqian
TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen
Abstract

Kürzlich haben groß angelegte vorab trainierte Vision-Sprach-Modelle (wie z.B. CLIP) dank ihrer leistungsstarken Repräsentationsfähigkeiten erhebliche Aufmerksamkeit gefunden. Dies inspiriert Forscher, das Wissen aus diesen großen vorab trainierten Modellen auf andere taskspezifische Modelle zu übertragen, beispielsweise auf Video-Aktionserkennungsmodelle (VAR), wobei insbesondere Seitennetze genutzt werden, um die Effizienz des parametersparenden Feintuning (PEFT) zu verbessern. Allerdings neigen aktuelle Transfermethoden im VAR dazu, das gefrorene Wissen aus den großen vorab trainierten Modellen direkt in Aktionserkennungsnetze mit minimalem Aufwand zu übertragen, anstatt die zeitlichen Modellierungsfähigkeiten der Aktionserkennungsmodelle selbst auszunutzen. Daher schlagen wir in diesem Artikel ein speichersparendes temporales Differenz-Seitennetzwerk (TDS-CLIP) vor, um Wissensübertragung und zeitliche Modellierung auszugleichen und die Rückpropagation in Modellen mit gefrorenen Parametern zu vermeiden. Insbesondere führen wir einen temporalen Differenzadapter (TD-Adapter) ein, der lokale zeitliche Unterschiede in Bewegungsmerkmalen effektiv erfassen kann, um die globalen zeitlichen Modellierungsfähigkeiten des Modells zu stärken. Darüber hinaus haben wir einen Seitenbewegungsverstärkungsadapter (SME-Adapter) entwickelt, um das vorgeschlagene Seitennetzwerk bei der effizienten Lernung von reichhaltigen Bewegungsinformationen in Videos zu leiten, was die Fähigkeit des Seitennetzwerks zur Erfassung und zum Lernen von Bewegungsinformationen verbessert. Umfangreiche Experimente wurden auf drei Benchmark-Datensätzen durchgeführt, darunter Something-Something V1&V2 und Kinetics-400. Die experimentellen Ergebnisse zeigen, dass unser Ansatz wettbewerbsfähige Leistungen erzielt.