HyperAIHyperAI

Command Palette

Search for a command to run...

PeCo: Perzeptuelles Codebook für die BERT-Vorstufe von Vision Transformers

Xiaoyi Dong Jianmin Bao Ting Zhang Dongdong Chen Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu Baining Guo

Zusammenfassung

Diese Arbeit untersucht ein verbessertes Vorhersageziel für die Vortrainierung von Vision-Transformern mit BERT. Wir beobachten, dass die derzeitigen Vorhersageziele mit menschlicher Wahrnehmung nicht übereinstimmen. Dieser Widerspruch motiviert uns, ein wahrnehmungsbasiertes Vorhersageziel zu lernen. Wir argumentieren, dass wahrnehmungsähnliche Bilder im Raum des Vorhersageziels eng beieinander liegen sollten. Überraschenderweise finden wir eine einfache, jedoch wirksame Idee: die Förderung der wahrnehmungsbasierten Ähnlichkeit während des dVAE-Trainings. Darüber hinaus verwenden wir ein selbstüberwachtes Transformer-Modell zur Tieferzeugung von Merkmalen und zeigen, dass es gut geeignet ist, wahrnehmungsbezogene Ähnlichkeit zu berechnen. Wir demonstrieren, dass die so gelernten visuellen Tokens tatsächlich eine bessere semantische Bedeutung aufweisen und die Vortrainierung dabei unterstützen, in verschiedenen nachgeschalteten Aufgaben eine überlegene Übertragungsleistung zu erzielen. Beispielsweise erreichen wir eine Top-1-Accuracy von 84,5%\textbf{84,5\%}84,5% auf ImageNet-1K mit einem ViT-B-Backbone und überbieten damit die konkurrierende Methode BEiT um +1,3%\textbf{+1,3\%}+1,3% bei denselben Vortrainierungszyklen. Unser Ansatz zeigt zudem erhebliche Verbesserungen bei der Objekterkennung und Segmentierung auf COCO sowie bei der semantischen Segmentierung auf ADE20K. Mit einem größeren Backbone (ViT-H) erreichen wir die derzeit beste ImageNet-Accuracy (\textbf{88,3%}) unter allen Methoden, die ausschließlich mit ImageNet-1K-Daten arbeiten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp