HyperAIHyperAI

Command Palette

Search for a command to run...

Maskeierte Merkmalsvorhersage für selbstüberwachte visuelle Vortrainierung

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

Zusammenfassung

Wir stellen Masked Feature Prediction (MaskFeat) für die selbstüberwachte Vortrainierung von Videomodellen vor. Unser Ansatz maskiert zunächst zufällig einen Teil der Eingabefolge und prognostiziert dann die Merkmale der maskierten Bereiche. Wir untersuchen fünf verschiedene Arten von Merkmalen und stellen fest, dass Histograms of Oriented Gradients (HOG), ein handgefertigter Merkmalsbeschreiber, sowohl hinsichtlich Leistung als auch Effizienz besonders gut abschneidet. Wir beobachten, dass die lokale Kontrastnormalisierung in HOG für gute Ergebnisse entscheidend ist, was mit früheren Arbeiten übereinstimmt, die HOG für die visuelle Erkennung einsetzen. Unser Ansatz kann umfangreiches visuelles Wissen erlernen und große, auf Transformers basierende Modelle antreiben. Ohne zusätzliche Modellgewichte oder überwachtes Signal erreicht MaskFeat, das auf unlabeled Videos vortrainiert wurde, bahnbrechende Ergebnisse von 86,7 % mit MViT-L auf Kinetics-400, 88,3 % auf Kinetics-600, 80,4 % auf Kinetics-700, 39,8 mAP auf AVA und 75,0 % auf SSv2. MaskFeat zeigt zudem eine gute Generalisierung auf Bilddaten, die als Video mit einer einzigen Frame-Resolution interpretiert werden können, und erzielt wettbewerbsfähige Ergebnisse auf ImageNet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Maskeierte Merkmalsvorhersage für selbstüberwachte visuelle Vortrainierung | Paper | HyperAI