HyperAIHyperAI
vor 3 Monaten

Bootstrapped Masked Autoencoder für die Vision-BERT-Vorstufe

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu
Bootstrapped Masked Autoencoder für die Vision-BERT-Vorstufe
Abstract

Wir stellen bootstrapped masked autoencoders (BootMAE) vor, einen neuen Ansatz für die Vortrainierung von Vision-BERT. BootMAE verbessert die ursprünglichen masked autoencoders (MAE) durch zwei zentrale Designentscheidungen: 1) einen Momentum-Encoder, der online extrahierte Merkmale als zusätzliche Vorhersageziele für den BERT-Trainingsschritt bereitstellt; 2) einen zielorientierten Decoder, der die Belastung für den Encoder verringert, die informationsreichen Details des Ziels (z. B. Pixelwerte unmaskierter Patche) zu speichern. Der erste Ansatz wird durch die Beobachtung motiviert, dass die Verwendung eines vortrainierten MAE zur Extraktion von Merkmalen als Vorhersageziel für maskierte Tokens zu einer besseren Vortrainierungsleistung führt. Daher integrieren wir einen Momentum-Encoder parallel zum ursprünglichen MAE-Encoder, der die Vortrainierungsleistung durch die Nutzung eigener Repräsentationen als BERT-Vorhersageziel bootstrapt. Im zweiten Design leiten wir die zielbezogenen Informationen (z. B. Pixelwerte unmaskierter Patche) direkt vom Encoder zum Decoder weiter, um die Notwendigkeit für den Encoder zu verringern, diese informationsreichen Details zu speichern. Dadurch kann sich der Encoder auf die semantische Modellierung konzentrieren, was das primäre Ziel der BERT-Vortrainierung ist, und muss nicht seine Kapazität für die Speicherung von Informationen zu unmaskierten Tokens aufwenden, die für die Vorhersage relevant sind. In umfangreichen Experimenten erreicht BootMAE auf ImageNet-1K eine Top-1-Accuracy von $84{,}2\%$ mit einem ViT-B-Backbone und übertrifft MAE unter denselben Vortrainierungszyklen um $+0{,}8\%$. Zudem erzielt BootMAE eine Verbesserung von $+1{,}0$ mIoU bei der semantischen Segmentierung auf ADE20K sowie $+1{,}3$ Box AP und $+1{,}4$ Mask AP bei Objekterkennung und Segmentierung auf dem COCO-Datensatz. Der Quellcode ist unter https://github.com/LightDXY/BootMAE verfügbar.