HyperAIHyperAI

Command Palette

Search for a command to run...

Bootstrapped Masked Autoencoder für die Vision-BERT-Vorstufe

Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu

Zusammenfassung

Wir stellen bootstrapped masked autoencoders (BootMAE) vor, einen neuen Ansatz für die Vortrainierung von Vision-BERT. BootMAE verbessert die ursprünglichen masked autoencoders (MAE) durch zwei zentrale Designentscheidungen: 1) einen Momentum-Encoder, der online extrahierte Merkmale als zusätzliche Vorhersageziele für den BERT-Trainingsschritt bereitstellt; 2) einen zielorientierten Decoder, der die Belastung für den Encoder verringert, die informationsreichen Details des Ziels (z. B. Pixelwerte unmaskierter Patche) zu speichern. Der erste Ansatz wird durch die Beobachtung motiviert, dass die Verwendung eines vortrainierten MAE zur Extraktion von Merkmalen als Vorhersageziel für maskierte Tokens zu einer besseren Vortrainierungsleistung führt. Daher integrieren wir einen Momentum-Encoder parallel zum ursprünglichen MAE-Encoder, der die Vortrainierungsleistung durch die Nutzung eigener Repräsentationen als BERT-Vorhersageziel bootstrapt. Im zweiten Design leiten wir die zielbezogenen Informationen (z. B. Pixelwerte unmaskierter Patche) direkt vom Encoder zum Decoder weiter, um die Notwendigkeit für den Encoder zu verringern, diese informationsreichen Details zu speichern. Dadurch kann sich der Encoder auf die semantische Modellierung konzentrieren, was das primäre Ziel der BERT-Vortrainierung ist, und muss nicht seine Kapazität für die Speicherung von Informationen zu unmaskierten Tokens aufwenden, die für die Vorhersage relevant sind. In umfangreichen Experimenten erreicht BootMAE auf ImageNet-1K eine Top-1-Accuracy von 84,2%84{,}2\%84,2% mit einem ViT-B-Backbone und übertrifft MAE unter denselben Vortrainierungszyklen um +0,8%+0{,}8\%+0,8%. Zudem erzielt BootMAE eine Verbesserung von +1,0+1{,}0+1,0 mIoU bei der semantischen Segmentierung auf ADE20K sowie +1,3+1{,}3+1,3 Box AP und +1,4+1{,}4+1,4 Mask AP bei Objekterkennung und Segmentierung auf dem COCO-Datensatz. Der Quellcode ist unter https://github.com/LightDXY/BootMAE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp