HyperAIHyperAI
vor 17 Tagen

ViC-MAE: Selbstüberwachtes Darstellungslernen aus Bildern und Videos mit kontrastiven maskierten Autoencodern

Jefferson Hernandez, Ruben Villegas, Vicente Ordonez
ViC-MAE: Selbstüberwachtes Darstellungslernen aus Bildern und Videos mit kontrastiven maskierten Autoencodern
Abstract

Wir stellen ViC-MAE vor, ein Modell, das sowohl Masked Autoencoders (MAE) als auch kontrastive Lernverfahren kombiniert. ViC-MAE wird durch eine globale Merkmalsdarstellung trainiert, die durch Pooling der lokalen Repräsentationen entsteht, die unter einer MAE-Rekonstruktionsverlustfunktion gelernt wurden, und diese Darstellung wird anschließend unter einer kontrastiven Zielsetzung über Bilder und Videoframes ausgenutzt. Wir zeigen, dass die durch ViC-MAE gelernten visuellen Repräsentationen gut auf sowohl Bild- als auch Videoklassifikationsaufgaben generalisieren. Insbesondere erreicht ViC-MAE im Vergleich zu der kürzlich vorgeschlagenen OmniMAE eine state-of-the-art Transfer-Learning-Leistung bei der Übertragung von Videos auf Bilder auf dem Imagenet-1k-Datensatz, wobei eine Top-1-Accuracy von 86 % (absolute Verbesserung um +1,3 Prozentpunkte) erzielt wird, wenn das Modell auf denselben Daten trainiert wird, und 87,1 % (absolute Verbesserung um +2,4 Prozentpunkte), wenn zusätzliche Trainingsdaten verwendet werden. Gleichzeitig übertrifft ViC-MAE die meisten anderen Methoden auf Videobenchmarks und erreicht auf dem anspruchsvollen Something-Something-v2-Videobenchmark eine Top-1-Accuracy von 75,9 %. Bei der gemeinsamen Ausbildung an Videos und Bildern aus einer vielfältigen Kombination von Datensätzen behält unser Ansatz eine ausgewogene Transfer-Learning-Leistung sowohl für Videoklassifikation als auch für Bildklassifikation und erreicht nur knapp hinter der besten überwachten Methode den zweiten Platz.