HyperAIHyperAI
vor 2 Monaten

VideoMAE: Masked Autoencoders sind daten-effiziente Lerner für das selbstüberwachte Vortraining von Videos

Zhan Tong; Yibing Song; Jue Wang; Limin Wang
VideoMAE: Masked Autoencoders sind daten-effiziente Lerner für das selbstüberwachte Vortraining von Videos
Abstract

Das Pre-Training von Video-Transformern auf extrem großen Datensätzen ist in der Regel erforderlich, um erstklassige Leistungen auf relativ kleinen Datensätzen zu erzielen. In dieser Arbeit zeigen wir, dass Video-Masked Autoencoders (VideoMAE) daten-effiziente Lernmodelle für das selbstüberwachte Video-Pre-Training (SSVP) sind. Wir lassen uns von den jüngsten Entwicklungen im Bereich ImageMAE inspirieren und schlagen eine angepasste Maskierung von Videoleisten mit einem extrem hohen Verhältnis vor. Diese einfache Designentscheidung macht die Rekonstruktion von Videos zu einer anspruchsvolleren Aufgabe des Selbst-Learnings, was wiederum dazu beiträgt, während des Pre-Trainings effektivere Videodarstellungen zu extrahieren. Wir erzielen drei wichtige Erkenntnisse bezüglich SSVP: (1) Ein extrem hoher Anteil der Maskierungsrate (d.h., 90% bis 95%) führt dennoch zu guten Leistungen des VideoMAE. Die zeitliche Redundanz des Videoinhalts ermöglicht ein höheres Maskierungsverhältnis als bei Bildern. (2) VideoMAE erreicht beeindruckende Ergebnisse auf sehr kleinen Datensätzen (d.h., etwa 3.000 bis 4.000 Videos), ohne zusätzliche Daten zu verwenden. (3) VideoMAE zeigt, dass die Datenqualität für SSVP wichtiger ist als die Datenmenge. Der Domänenwechsel zwischen dem Pre-Training-Datensatz und dem Ziel-Datensatz ist ein wichtiges Problem. Bemerkenswerterweise kann unser VideoMAE mit dem Standard-ViT eine Genauigkeit von 87,4% auf Kinetics-400, 75,4% auf Something-Something V2, 91,3% auf UCF101 und 62,6% auf HMDB51 erreichen, ohne zusätzliche Daten zu verwenden. Der Quellcode ist unter https://github.com/MCG-NJU/VideoMAE verfügbar.

VideoMAE: Masked Autoencoders sind daten-effiziente Lerner für das selbstüberwachte Vortraining von Videos | Neueste Forschungsarbeiten | HyperAI