HyperAIHyperAI
vor 17 Tagen

Erweiterung von Video Masked Autoencoders auf 128 Frames

Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar M. Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal
Erweiterung von Video Masked Autoencoders auf 128 Frames
Abstract

Die Videoverstehensforschung hat in letzter Zeit erhebliche Fortschritte gemacht, wobei neuere Video-Grundmodellen aufgrund selbstüberwachter Vortrainingsziele eine starke Leistung erzielen, wobei Masked Autoencoders (MAE) zur bevorzugten Architektur geworden sind. Dennoch konzentrieren sich die meisten vorangegangenen Arbeiten, die MAE-Vortrainingsstrategien nutzen, auf relativ kurze Video-Repräsentationen (16 bzw. 32 Frames), hauptsächlich aufgrund von Hardware-Beschränkungen hinsichtlich Speicher und Rechenleistung, die sich schlecht mit zunehmender Video-Länge skaliert, bedingt durch die dichte, speicherintensive Selbst-Attention-Entschlüsselung. Eine naheliegende Strategie zur Bewältigung dieser Herausforderungen besteht darin, während der Entschlüsselung nur eine Teilmenge der Tokens zur Rekonstruktion auszuwählen (oder Decoder-Masking anzuwenden). In dieser Arbeit präsentieren wir eine effektive Strategie zur Priorisierung von Tokens, die es ermöglicht, auf längeren Video-Sequenzen (128 Frames) zu trainieren und dabei eine bessere Leistung erzielt als übliche, zufällige oder gleichmäßige Maskierungsstrategien. Der Kern unserer Herangehensweise ist eine adaptive Decoder-Maskierungsstrategie, die die wichtigsten Tokens priorisiert und quantisierte Tokens als Rekonstruktionsziele nutzt. Unser adaptiver Ansatz nutzt einen leistungsfähigen, auf MAGVIT basierenden Tokenizer, der sowohl die Tokens als auch deren Priorität gemeinsam lernt. Wir validieren unsere Designentscheidungen durch umfassende Ablationsstudien und beobachten eine verbesserte Leistung der resultierenden Langvideo-Encoder (128 Frames) im Vergleich zu Kurzvideo-Encoder (32 Frames). Mit unserer Langvideo-Masked-Autoencoder-Strategie (LVMAE) erreichen wir eine Verbesserung gegenüber dem Stand der Technik bei Diving48 um 3,9 Punkte und bei der Verben-Klassifikation im EPIC-Kitchens-100-Datensatz um 2,5 Punkte, wobei wir eine einfache Kernarchitektur und ausschließlich video-basiertes Vortraining verwenden (im Gegensatz zu einigen vorherigen Arbeiten, die Millionen gelabelter Video-Text-Paare oder spezialisierte Encoder erfordern).