HyperAIHyperAI
vor 17 Tagen

ZIEL: Anpassung von Bildmodellen für eine effiziente Video-Aktionserkennung

Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li
ZIEL: Anpassung von Bildmodellen für eine effiziente Video-Aktionserkennung
Abstract

Neuere auf Vision-Transformern basierende Videomodelle folgen in der Regel dem Paradigma „Bildvortrainierung gefolgt von Feinabstimmung“ und haben auf mehreren Videobenchmarks erhebliche Erfolge erzielt. Dennoch kann die vollständige Feinabstimmung eines solchen Videomodells rechenintensiv und unnötig sein, insbesondere da vortrainierte Bildtransformer-Modelle eine herausragende Übertragbarkeit demonstriert haben. In dieser Arbeit stellen wir eine neuartige Methode vor, um vortrainierte Bildmodelle (Adapted Image Models, AIM) effizient für die Videoverstehensaufgabe zu adaptieren. Indem wir das vortrainierte Bildmodell fixieren und lediglich einige leichte Adapter hinzufügen, führen wir räumliche, zeitliche sowie gemeinsame Adaptation ein, um das Bildmodell schrittweise mit Fähigkeiten zur räumlich-zeitlichen Schlussfolgerung auszustatten. Wir zeigen, dass unser vorgeschlagenes AIM auf vier Benchmarks für Videotätigkeitserkennung konkurrenzfähige oder sogar überlegene Leistung erzielt, wobei deutlich weniger anpassbare Parameter erforderlich sind. Aufgrund seiner Einfachheit ist unsere Methode zudem allgemein anwendbar auf verschiedene vortrainierte Bildmodelle und hat das Potenzial, künftig leistungsfähigere Bild-Grundmodelle effizient zu nutzen. Die Projekt-Webseite finden Sie unter \url{https://adapt-image-models.github.io/}.