vor 3 Monaten

PeCo: Perzeptuelles Codebook für die BERT-Vorstufe von Vision Transformers

Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu, Baining Guo

Details der Forschungsarbeit anzeigen View Code

PeCo: Perzeptuelles Codebook für die BERT-Vorstufe von Vision Transformers

Abstract

Diese Arbeit untersucht ein verbessertes Vorhersageziel für die Vortrainierung von Vision-Transformern mit BERT. Wir beobachten, dass die derzeitigen Vorhersageziele mit menschlicher Wahrnehmung nicht übereinstimmen. Dieser Widerspruch motiviert uns, ein wahrnehmungsbasiertes Vorhersageziel zu lernen. Wir argumentieren, dass wahrnehmungsähnliche Bilder im Raum des Vorhersageziels eng beieinander liegen sollten. Überraschenderweise finden wir eine einfache, jedoch wirksame Idee: die Förderung der wahrnehmungsbasierten Ähnlichkeit während des dVAE-Trainings. Darüber hinaus verwenden wir ein selbstüberwachtes Transformer-Modell zur Tieferzeugung von Merkmalen und zeigen, dass es gut geeignet ist, wahrnehmungsbezogene Ähnlichkeit zu berechnen. Wir demonstrieren, dass die so gelernten visuellen Tokens tatsächlich eine bessere semantische Bedeutung aufweisen und die Vortrainierung dabei unterstützen, in verschiedenen nachgeschalteten Aufgaben eine überlegene Übertragungsleistung zu erzielen. Beispielsweise erreichen wir eine Top-1-Accuracy von $\textbf{84,5\%}$ auf ImageNet-1K mit einem ViT-B-Backbone und überbieten damit die konkurrierende Methode BEiT um $\textbf{+1,3\%}$ bei denselben Vortrainierungszyklen. Unser Ansatz zeigt zudem erhebliche Verbesserungen bei der Objekterkennung und Segmentierung auf COCO sowie bei der semantischen Segmentierung auf ADE20K. Mit einem größeren Backbone (ViT-H) erreichen wir die derzeit beste ImageNet-Accuracy (\textbf{88,3\%}) unter allen Methoden, die ausschließlich mit ImageNet-1K-Daten arbeiten.