HyperAIHyperAI

Command Palette

Search for a command to run...

Doppelpfad-Anpassung von Bild- zu Videotransformern

Jungin Park Jiyoung Lee Kwanghoon Sohn

Zusammenfassung

In dieser Arbeit übertragen wir die überragende Repräsentationskraft der visuellen Grundlagenmodelle, wie zum Beispiel ViT und Swin, für die Video-Verarbeitung mit nur wenigen trainierbaren Parametern. Vorherige Anpassungsmethoden haben zwar räumliche und zeitliche Modellierung gleichzeitig mit einem einheitlichen lernfähigen Modul berücksichtigt, aber dennoch daran gescheitert, die repräsentativen Fähigkeiten von Bild-Transformern vollständig auszuschöpfen. Wir argumentieren, dass die weit verbreitete Dual-Pfad (Zwei-Strömungs-) Architektur in Videomodellen dieses Problem mildern kann. Wir schlagen eine neuartige Dual-Pfad-Anpassung vor, die in räumliche und zeitliche Anpassungspfade getrennt ist, wobei in jedem Transformer-Block ein leichtgewichtiger Bottleneck-Adapter eingesetzt wird. Insbesondere für die zeitdynamische Modellierung integrieren wir aufeinanderfolgende Frames in ein gitterförmiges Frameset, um die Fähigkeit der visuellen Transformer zu präzise nachzuahmen, Beziehungen zwischen Tokens zu extrapolieren. Darüber hinaus untersuchen wir aus einer einheitlichen Perspektive mehrere Baseline-Modelle im Bereich der Video-Verarbeitung und vergleichen sie mit dem Dual-Pfad-Ansatz. Experimentelle Ergebnisse auf vier Benchmarks für Aktionserkennung zeigen, dass vortrainierte Bild-Transformer mit DualPath effektiv auf Datenbereiche verallgemeinert werden können, die über das ursprüngliche Trainingsdatensatz hinausgehen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp