Doppelpfad-Anpassung von Bild- zu Videotransformern

In dieser Arbeit übertragen wir die überragende Repräsentationskraft der visuellen Grundlagenmodelle, wie zum Beispiel ViT und Swin, für die Video-Verarbeitung mit nur wenigen trainierbaren Parametern. Vorherige Anpassungsmethoden haben zwar räumliche und zeitliche Modellierung gleichzeitig mit einem einheitlichen lernfähigen Modul berücksichtigt, aber dennoch daran gescheitert, die repräsentativen Fähigkeiten von Bild-Transformern vollständig auszuschöpfen. Wir argumentieren, dass die weit verbreitete Dual-Pfad (Zwei-Strömungs-) Architektur in Videomodellen dieses Problem mildern kann. Wir schlagen eine neuartige Dual-Pfad-Anpassung vor, die in räumliche und zeitliche Anpassungspfade getrennt ist, wobei in jedem Transformer-Block ein leichtgewichtiger Bottleneck-Adapter eingesetzt wird. Insbesondere für die zeitdynamische Modellierung integrieren wir aufeinanderfolgende Frames in ein gitterförmiges Frameset, um die Fähigkeit der visuellen Transformer zu präzise nachzuahmen, Beziehungen zwischen Tokens zu extrapolieren. Darüber hinaus untersuchen wir aus einer einheitlichen Perspektive mehrere Baseline-Modelle im Bereich der Video-Verarbeitung und vergleichen sie mit dem Dual-Pfad-Ansatz. Experimentelle Ergebnisse auf vier Benchmarks für Aktionserkennung zeigen, dass vortrainierte Bild-Transformer mit DualPath effektiv auf Datenbereiche verallgemeinert werden können, die über das ursprüngliche Trainingsdatensatz hinausgehen.