HyperAIHyperAI

Command Palette

Search for a command to run...

Erkundung einfacher Vision Transformer-Backbones für die Objekterkennung

Yanghao Li Hanzi Mao Ross Girshick† Kaiming He‡

Zusammenfassung

Wir untersuchen den einfachen, nicht hierarchischen Vision Transformer (ViT) als Backbonenetzwerk für die Objekterkennung. Diese Architektur ermöglicht es, den ursprünglichen ViT für die Objekterkennung zu feinjustieren, ohne dass ein hierarchischer Backbone für das Vortrainieren neu entworfen werden muss. Mit minimalen Anpassungen zur Feinjustierung können unsere Detektoren mit einfacher Backbone wettbewerbsfähige Ergebnisse erzielen. Überraschenderweise beobachten wir: (i) es ist ausreichend, eine einfache Merkmalspyramide aus einer einzelnen Skalen-Merkmalskarte aufzubauen (ohne die übliche FPN-Design) und (ii) es ist ausreichend, Fensteraufmerksamkeit (ohne Verschiebung) zu verwenden, unterstützt durch sehr wenige Cross-Fenster-Propagation-Blöcke. Mit einfachen ViT-Backbones, die als Masked Autoencoders (MAE) vortrainiert wurden, kann unser Detektor, der ViTDet genannt wird, mit den bisher führenden Methoden konkurrieren, die alle auf hierarchischen Backbones basierten. Er erreicht bis zu 61,3 AP_box auf dem COCO-Datensatz unter Verwendung von ausschließlich ImageNet-1K-Vortrainierung. Wir hoffen, dass unsere Studie die Aufmerksamkeit auf Forschungen zu Detektoren mit einfacher Backbone lenken wird. Der Code für ViTDet ist in Detectron2 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp