HyperAIHyperAI
vor 17 Tagen

Side4Video: Spatial-Zeitliche Seitennetzwerk für speichereffizientes Bild-zu-Video-Transfer-Lernen

Huanjin Yao, Wenhao Wu, Zhiheng Li
Side4Video: Spatial-Zeitliche Seitennetzwerk für speichereffizientes Bild-zu-Video-Transfer-Lernen
Abstract

Große vortrainierte Vision-Modelle erzielen beeindruckende Erfolge in der Computer Vision. Dennoch kann die vollständige Feinabstimmung großer Modelle für nachgeschaltete Aufgaben, insbesondere im Bereich der Videoverarbeitung, erheblich rechenintensiv sein. In jüngster Zeit richten sich die Forschungsanstrengungen verstärkt auf effiziente Bild-zu-Video-Transfer-Lernverfahren. Dennoch fehlen bestehende effiziente Feinabstimmungsmethoden einer ausreichenden Berücksichtigung des Speicherverbrauchs während des Trainings sowie einer systematischen Untersuchung der Übertragung größerer Modelle auf den Video-Bereich. In diesem Artikel stellen wir ein neuartiges räumlich-zeitliches Seitennetzwerk vor, das eine speichereffiziente Feinabstimmung großer Bildmodelle für die Videoverarbeitung ermöglicht und als Side4Video bezeichnet wird. Konkret integrieren wir ein leichtgewichtiges räumlich-zeitliches Seitennetzwerk an ein gefrorenes Vision-Modell, wodurch der Rückwärtspropagationsprozess durch das schwere vortrainierte Modell entfällt und gleichzeitig mehrstufige räumliche Merkmale aus dem ursprünglichen Bildmodell genutzt werden. Die extrem speichereffiziente Architektur ermöglicht es uns, den Speicherverbrauch um 75 % gegenüber früheren Adapter-basierten Methoden zu reduzieren. Dadurch können wir ein äußerst großes ViT-E-Modell (4,4 Mrd. Parameter) für Videoverarbeitungsaufgaben übertragen, das 14-mal größer ist als ViT-L (304 Mio. Parameter). Unser Ansatz erzielt herausragende Ergebnisse auf verschiedenen Video-Datensätzen, sowohl bei einmodalen als auch bei multimodalen Aufgaben (z. B. Aktionserkennung und Text-Video-Recherche), insbesondere bei Something-Something V1 & V2 (67,3 % bzw. 74,6 %), Kinetics-400 (88,6 %), MSR-VTT (52,3 %), MSVD (56,1 %) und VATEX (68,8 %). Wir stellen unseren Quellcode unter https://github.com/HJYao00/Side4Video zur Verfügung.