vor 8 Monaten

Zusammenfassung

Kürzlich haben groß angelegte vorab trainierte Vision-Sprach-Modelle (wie z.B. CLIP) dank ihrer leistungsstarken Repräsentationsfähigkeiten erhebliche Aufmerksamkeit gefunden. Dies inspiriert Forscher, das Wissen aus diesen großen vorab trainierten Modellen auf andere taskspezifische Modelle zu übertragen, beispielsweise auf Video-Aktionserkennungsmodelle (VAR), wobei insbesondere Seitennetze genutzt werden, um die Effizienz des parametersparenden Feintuning (PEFT) zu verbessern. Allerdings neigen aktuelle Transfermethoden im VAR dazu, das gefrorene Wissen aus den großen vorab trainierten Modellen direkt in Aktionserkennungsnetze mit minimalem Aufwand zu übertragen, anstatt die zeitlichen Modellierungsfähigkeiten der Aktionserkennungsmodelle selbst auszunutzen. Daher schlagen wir in diesem Artikel ein speichersparendes temporales Differenz-Seitennetzwerk (TDS-CLIP) vor, um Wissensübertragung und zeitliche Modellierung auszugleichen und die Rückpropagation in Modellen mit gefrorenen Parametern zu vermeiden. Insbesondere führen wir einen temporalen Differenzadapter (TD-Adapter) ein, der lokale zeitliche Unterschiede in Bewegungsmerkmalen effektiv erfassen kann, um die globalen zeitlichen Modellierungsfähigkeiten des Modells zu stärken. Darüber hinaus haben wir einen Seitenbewegungsverstärkungsadapter (SME-Adapter) entwickelt, um das vorgeschlagene Seitennetzwerk bei der effizienten Lernung von reichhaltigen Bewegungsinformationen in Videos zu leiten, was die Fähigkeit des Seitennetzwerks zur Erfassung und zum Lernen von Bewegungsinformationen verbessert. Umfangreiche Experimente wurden auf drei Benchmark-Datensätzen durchgeführt, darunter Something-Something V1&V2 und Kinetics-400. Die experimentellen Ergebnisse zeigen, dass unser Ansatz wettbewerbsfähige Leistungen erzielt.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen | Paper | HyperAI

Command Palette

TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

TDS-CLIP: Temporale Differenzseiten-Netzwerk für Bild-zu-Video-Transfer-Lernen

Bin Wang Wentong Li Wenqian Wang Mingliang Gao Runmin Cong Wei Zhang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters