vor 2 Monaten

EVEREST: Effizienter Maskierter Video-Autoencoder durch Entfernung redundanter räumlich-zeitlicher Token

Sunil Hwang; Jaehong Yoon; Youngwan Lee; Sung Ju Hwang

Abstract

Maskierte Video-Autoencoder (MVA) haben durch ihre erheblich bessere Leistung im Vergleich zu früheren Methoden der Videodarstellungslernung ihr Potenzial gezeigt. Allerdings verschwenden sie aufgrund zufälliger Maskierungsstrategien eine übermäßige Menge an Rechenleistung und Speicher, indem sie uninformativen Tokens/Frames vorhersagen (z.B. mehr als 16 Knoten mit 128 NVIDIA A100 GPUs). Um dieses Problem zu lösen, nutzen wir die unterschiedliche Informationsdichte der Patches in Videos und schlagen EVEREST vor, einen überraschend effizienten MVA-Ansatz für das Lernen von Videodarstellungen, der Tokens mit reichhaltigen Bewegungsmerkmalen identifiziert und uninformative Tokens während des Vortrainings und Feinabstimmens verwirft. Wir stellen außerdem eine informationsintensive Frame-Auswahlstrategie vor, die es dem Modell ermöglicht, sich auf informative und kausale Frames zu konzentrieren, wobei Redundanzen minimiert werden. Unsere Methode reduziert die Rechen- und Speicheranforderungen des MVA erheblich, sodass Vortraining und Feinabstimmung auf einem einzelnen Rechner mit 8 GPUs durchgeführt werden können, während gleichwertige Leistungen wie bei rechen- und speicherintensiven Baselines auf verschiedenen Benchmarks sowie dem nicht kurationierten Ego4D-Datensatz erzielt werden. Wir hoffen, dass unsere Arbeit dazu beiträgt, die Hürden für weitere Forschungen im Bereich der Videoverarbeitung zu senken.