HyperAIHyperAI
vor 11 Tagen

Maskeierte Merkmalsvorhersage für selbstüberwachte visuelle Vortrainierung

Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer
Maskeierte Merkmalsvorhersage für selbstüberwachte visuelle Vortrainierung
Abstract

Wir stellen Masked Feature Prediction (MaskFeat) für die selbstüberwachte Vortrainierung von Videomodellen vor. Unser Ansatz maskiert zunächst zufällig einen Teil der Eingabefolge und prognostiziert dann die Merkmale der maskierten Bereiche. Wir untersuchen fünf verschiedene Arten von Merkmalen und stellen fest, dass Histograms of Oriented Gradients (HOG), ein handgefertigter Merkmalsbeschreiber, sowohl hinsichtlich Leistung als auch Effizienz besonders gut abschneidet. Wir beobachten, dass die lokale Kontrastnormalisierung in HOG für gute Ergebnisse entscheidend ist, was mit früheren Arbeiten übereinstimmt, die HOG für die visuelle Erkennung einsetzen. Unser Ansatz kann umfangreiches visuelles Wissen erlernen und große, auf Transformers basierende Modelle antreiben. Ohne zusätzliche Modellgewichte oder überwachtes Signal erreicht MaskFeat, das auf unlabeled Videos vortrainiert wurde, bahnbrechende Ergebnisse von 86,7 % mit MViT-L auf Kinetics-400, 88,3 % auf Kinetics-600, 80,4 % auf Kinetics-700, 39,8 mAP auf AVA und 75,0 % auf SSv2. MaskFeat zeigt zudem eine gute Generalisierung auf Bilddaten, die als Video mit einer einzigen Frame-Resolution interpretiert werden können, und erzielt wettbewerbsfähige Ergebnisse auf ImageNet.

Maskeierte Merkmalsvorhersage für selbstüberwachte visuelle Vortrainierung | Neueste Forschungsarbeiten | HyperAI