HyperAIHyperAI

Command Palette

Search for a command to run...

TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Zusammenfassung

Kürzlich haben groß angelegte vorab trainierte Vision-Sprach-Modelle (wie z.B. CLIP) dank ihrer leistungsstarken Repräsentationsfähigkeiten erhebliche Aufmerksamkeit gefunden. Dies inspiriert Forscher, das Wissen aus diesen großen vorab trainierten Modellen auf andere taskspezifische Modelle zu übertragen, beispielsweise auf Video-Aktionserkennungsmodelle (VAR), wobei insbesondere Seitennetze genutzt werden, um die Effizienz des parametersparenden Feintuning (PEFT) zu verbessern. Allerdings neigen aktuelle Transfermethoden im VAR dazu, das gefrorene Wissen aus den großen vorab trainierten Modellen direkt in Aktionserkennungsnetze mit minimalem Aufwand zu übertragen, anstatt die zeitlichen Modellierungsfähigkeiten der Aktionserkennungsmodelle selbst auszunutzen. Daher schlagen wir in diesem Artikel ein speichersparendes temporales Differenz-Seitennetzwerk (TDS-CLIP) vor, um Wissensübertragung und zeitliche Modellierung auszugleichen und die Rückpropagation in Modellen mit gefrorenen Parametern zu vermeiden. Insbesondere führen wir einen temporalen Differenzadapter (TD-Adapter) ein, der lokale zeitliche Unterschiede in Bewegungsmerkmalen effektiv erfassen kann, um die globalen zeitlichen Modellierungsfähigkeiten des Modells zu stärken. Darüber hinaus haben wir einen Seitenbewegungsverstärkungsadapter (SME-Adapter) entwickelt, um das vorgeschlagene Seitennetzwerk bei der effizienten Lernung von reichhaltigen Bewegungsinformationen in Videos zu leiten, was die Fähigkeit des Seitennetzwerks zur Erfassung und zum Lernen von Bewegungsinformationen verbessert. Umfangreiche Experimente wurden auf drei Benchmark-Datensätzen durchgeführt, darunter Something-Something V1&V2 und Kinetics-400. Die experimentellen Ergebnisse zeigen, dass unser Ansatz wettbewerbsfähige Leistungen erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp